为 什么 要 写 这 本 书 


最 早 提 出 “大 数据 ”时 代 到 来 的 是 全 球 知名 咨询 公司 麦肯锡 ， 麦 肯 锡 称 : “数据 ， 已 经 渗透 到 当今 每 一 个 行业 和 业务 职能 领域 ， 成 为 重要 的 生产 因素 。 人 们 对 于 海量 数据 的 挖 据 和 运用 ， 预 示 着 新 一 波 
生产 率 增 长 和 消费 者 盈余 浪潮 的 到 来 。” 


早 在 2012 年 ， 大 数据 (big data) 一 词 已 经 被 广泛 提起 ， 人 们 用 它 来 描述 和 定义 信息 爆炸 时 代 产 生 的 海量 数据 ， 并 命名 与 之 相关 的 技术 发 展 与 创新 。 那 时 就 有 人 预计 ， 从 2013 年 至 2020 年 ， 全 球 数 据 规模 
将 增长 10 倍 ， 每 年 产生 的 数据 量 将 由 当时 的 4.4 万 亿 GB， 增 长 至 44 万 亿 GB， 每 两 年 翻 一 


既然 “大 数据 ”浪潮 已 经 来 临 ， 那 么 与 之 对 应 的 大 数据 人 才 呢 ? 在 国外 ， 大 数据 技术 发 展 正如 火 如 茶 ， 各 种 方便 大 家 学 习 的 资料 、 教 程 应 有 尽 有 。 但 是 ， 在 国内 ， 这 种 资料 却 是 有 “门槛 ”的 。 其 一 ， 
这 类 资料 是 英文 的 ， 对 于 部 分 人 员 来 说 ， 阅 读 是 有 难度 的 ; 其 二 ， 这 些 资料 对 于 初学 者 或 在 校生 来 说 ， 在 理论 理解 上 也 有 一 些 难度 ， 没 有 充分 的 动手 实践 来 协助 理解 大 数据 相关 技术 的 原理 、 架 构 等 ; 其 
三 ， 在 如 何 应 用 大 数据 技术 来 解决 企业 实 实在 在 遇 到 的 大 数据 相关 问题 方面 ， 没 有 很 好 的 资料 ; 其 四 ， 对 于 企业 用 户 来 说 ， 如 何 将 大 数据 技术 和 数据 挖 氢 技 术 相 结合 ， 对 企业 大 量 数据 进行 挖 据 ， 以 挖 氢 出 
有 价值 的 信息 ， 也 是 难点 。 


作为 大 数据 相关 技术 ，Hadoop 无 疑 应 用 很 广泛 。Hadoop 具 有 以 下 优势 : 高 可 靠 性 、 高 扩展 性 、 高 效 性 、 高 容错 性 、 低 成 本 、 生 态 系统 完 


一 般 来 说 ， 使 用 Hadoop 相 关 技 术 可 以 解决 企业 相关 大 数据 应 用 ， 特 别 是 结合 诸如 Mahout、Spatk MIlib 等 技术 ,不仅 可 以 对 企业 相关 大 数据 进行 基础 分 析 ， 还 能 构建 挖掘 模型 ， 挖 据 企 业 大 数据 中 有 价值 


的 信息 。 


Y 


对 于 学 习 大 数据 相关 技术 的 高 校 师 生 来 说 ， 本 书 不 仅 提 供 了 大 数据 相关 技术 的 基础 讲解 及 原理 、 架 构 分 析 ， 还 针对 这 些 原 理 ， 配 备 有 对 应 的 动手 实践 章节 ， 帮 助 读 者 加 深 对 原理 、 架 构 的 认识 。 同 时 ， 
在 每 个 模块 结束 后 ， 书 中 会 有 一 个 相对 独立 的 企业 应 用 案例 ， 帮 助 读 者 巩固 学 到 的 大 数据 技术 相关 知识 。 


对 于 企业 用 户 或 大 数据 挖 据 开 发 者 来 说 ， 特 别 是 对 想 要 了 解 如 何 将 大 数据 技术 应 用 到 企业 大 数据 项 目 中 的 企业 用 户 或 者 开发 者 来 说 ， 本 书 也 是 一 份 优 秀 的 参考 资料 。 


本 书 特 色 


本 书 提供 了 大 数据 相关 技术 的 简介 、 原 理 、 实 践 、 企 业 应 用 等 ， 针 对 大 数据 相关 技术 ， 如 Hadoop、HBase、Hive、Spark 等 ， 都 有 专业 章节 进行 介绍 ， 并 且 针 对 每 一 模块 都 有 相应 的 动手 实践 ， 能 有 效 加 
深 读者 对 大 数据 相关 技术 原理 、 技 术 实践 的 理解 。 书 中 的 挖 据 实践 篇 涉及 企业 在 大 数据 应 用 中 的 所 有 环节 ， 如 数据 采集 、 数 据 预 处 理 、 数 据 挖 据 等 ， 通 过 案例 对 整个 系统 的 架构 进行 了 详细 分 析 ， 对 读者 有 
一 定 实践 指导 作用 。 


读者 可 以 从 “ 泰 迪 杯 ” 全 国 大 学 生 数 据 挖掘 挑战 赛 网 站 (http://www.tipdm.org/tj/865.jhtml) 免费 下 载 本 书 配套 的 全 部 数据 文件 及 源 程序 。 另 外 ， 为 方便 教师 授课 ， 本 书 还 特意 提供 了 建 模 阶 段 的 过 程 数 
据 文件 、PPT 课 件 ， 有 需要 的 教师 可 通过 热线 电话 (40068-40020) 、 企 业 QQ (40068-40020) 或 以 下 微 信 公众 号 咨询 获取 。 


张 良 均 < 大 数据 挖掘 产品 与 服务 > 


. 开设 大 数据 、 大 数据 挖掘 相关 课程 的 高 校 教师 和 学 生 


目前 国内 不 少 高 校 将 大 数据 、 大 数据 挖 气 引 入 本 科教 学 中 ， 在 计算 机 、 数 学 、 自 动 化 、 电 子 信息 、 人 金融 等 专业 开设 了 大 数据 技术 相关 的 课程 ， 但 目前 针对 这 一 课程 的 相关 教材 没有 统一 ， 或 者 使 用 的 孝 
材 不 利于 课堂 教学 。 本 书 提供 了 大 数据 相关 技术 的 简介 、 原 理 、 实 践 、 企 业 应 用 等 ， 能 有 效 帮助 高 校 教师 教学 ; 帮助 学 生 学 习 大 数据 相关 技术 原理 ， 进 行 技术 实践 ， 为 以 后 工作 打下 良好 基础 。 


- 大 数据 开发 人 员 

书 中 针对 大 数据 相关 技术 ， 如 Hadoop、HBase、Hive、Spatk 等 ， 都 有 专业 章节 进行 介绍 ， 并 且 针 对 每 一 模块 有 相应 的 动手 实践 ， 对 初级 开发 人 员 有 和 较 强 指导 作用 。 
© 大 数据 架构 师 

挖 气 实 践 篇 涉及 企业 在 大 数据 应 用 中 的 所 有 环节 ， 和 包括 数据 采集 、 数 据 预 处 理 、 数 据 挖 气 等 方面 ， 通 过 案例 对 整个 系统 的 架构 进行 了 详细 分 析 ， 对 大 数据 架构 师 有 一 定 的 实践 指导 作用 。 
` 关注 大 数据 挖掘 技术 的 人 员 


本 书 不 仅 包括 大 数据 相关 技术 的 简介 及 原理 分 析 ， 还 包括 大 数据 相关 技术 和 大 数据 挖 握 相 结合 的 案例 分 析 。 对 于 大 数据 挖掘 技术 人 员 来 说 ， 如 何 应 用 大 数据 技术 来 对 大 数据 进行 挖掘 是 重点 和 难点 ， 通 
过 学 习 本 书 中 案例 的 分 析 方 法 ， 可 以 将 其 融入 自己 的 实际 工作 中 。 


本 书 主要 分 为 两 篇 : 基础 篇 和 挖掘 实 战 篇 。 基 础 篇 介绍 了 大 数据 相关 技术 : Hadoop、Hive、HBase、Pig、Spa 永 、Oozie 等 。 针 对 每 个 技术 都 有 相应 模块 与 之 对 应 ， 首 先 对 该 技术 的 概念 、 内 部 原理 等 进行 
介绍 ， 使 读者 对 该 技术 有 一 个 由 浅 入 深 的 理解 ; 其 次 在 对 原理 的 介绍 中 会 配合 相应 的 动手 实践 ， 加 深 对 原理 的 理解 。 在 每 个 模块 的 最 后 ， 会 有 1 一 2 个 企业 案例 ， 主 要 讲解 使 用 当前 模块 的 技术 来 解决 其 中 的 1 


一 2 个 问题 ， 这 样 读者 不 仅 对 技术 的 原理 、 架 构 有 了 较 深 入 的 了 解 ， 同 时 ， 对 于 如 何 应 用 该 技术 也 有 了 一 定 认 识 ， 从 而 为 以 后 的 工作 、 学 习 打 下 良好 基础 。 挖 所 实战 篇 通过 对 一 个 大 型 的 企业 应 用 案例 的 介 
绍 ， 充 分 应 用 基础 篇 讲解 的 大 数据 技术 来 解决 企业 应 用 中 遇 到 的 各 种 问题 。 本 书 配 套 提 供 了 程序 代码 及 数据 ， 读 者 可 通过 上 机 实验 ,快速 掌握 书 中 所 介绍 的 大 数据 相关 技术 ， 获 得 使 用 大 数据 相关 技术 进行 


By 


数据 挖 据 的 基本 能 力 。 


第 一 篇 是 基础 篇 (第 1 一 7 章 ) 。 第 1 章 主要 介绍 了 大 数据 相关 概念 ， 以 及 大 数据 相关 技术 。 第 2 章 对 Hadoop 进 行 了 介绍 ， 包 括 概念 、 原 理 、 架 构 等 ， 通 过 动手 实践 案例 帮助 读者 加 深 对 原理 的 理解 。 第 3 章 
对 Hive 进 行 了 介绍 ， 重 点 分 析 了 Hive 的 架构 及 如 何 与 Hadoop 相 结合 ， 同 时 ， 引 入 一 个 企业 案例 来 分 析 Hive 在 企业 应 用 中 的 地 位 。 第 4 章 对 HBase 进 行 了 介绍 ， 分 析 了 HDFS 与 HBase 的 异同 点 、HBase 架 构 原 
理 、HBase 如 何 做 到 支持 随机 读 写 等 。 第 5 章 介 绍 了 Pig， 详 细 分 析 了 Pig 的 实现 原理 及 应 用 场景 ,介绍 了 Piglatin， 并 且 通 过 一 个 PiglLatin 的 动手 实践 案例 ， 加 深 读者 对 该 脚本 的 理解 。 第 6 章 介 绍 了 Spatk 的 基本 
原理 、RDD 实 现 等 ， 并 且 对 Scala 进 行 了 简单 介绍 ， 使 用 Scala 创 建 Wordcount 程 序 ， 在 模块 的 最 后 使 用 Spatk MLlib 完 成 引入 的 企业 案例 中 的 模型 建立 环节 。 第 7 章 介绍 了 Hadoop 工 作 流 Oozie， 通 过 动手 实际 建立 
Hadoop MR、Spark、Hive、Pig 的 工作 流 ， 方 便 理 解 企业 工作 流 应 用 。 


第 二 篇 是 挖 握 实 战 篇 (第 8 章 ) ， 详 细 介 绍 了 一 个 企业 级 大 数据 应 用 项 目 一 法 律 服务 大 数据 智能 推荐 系统 。 通 过 分 析 应 用 背景 、 构 建 系统 ， 使 读者 了 解 针对 系统 的 每 一 层 应 使 用 什么 大 数据 技术 来 解决 问 


题 。 涉 及 的 流程 有 数据 采集 、 数 据 预 处 理 、 模 型 构建 等 ， 在 每 一 个 流程 中 会 进行 大 数据 相关 技术 实践 ， 运 用 实际 数据 来 进行 分 析 ， 使 读者 切身 感受 到 大 数据 技术 解决 大 数据 企业 应 用 的 魅力 。 
勘误 和 支持 


除 封面 署名 外 ， 参 加 本 书 编写 工作 的 还 有 周 龙 、 焦 正 升 、 许 国 杰 、 杨 坦 、 肖 刚 、 刘 晓 勇 等 。 由 于 作者 的 水 平 有 限 ， 书 中 难免 会 出 现 一 些 错 误 或 者 不 准确 的 地 方 ， 是 请 读者 批评 指正 。 本 书 内 容 的 更 新 将 
及 时 在 “ 泰 迪 杯 ” 全 国 数据 挖掘 挑战 赛 网 站 (www.tipdm.com) 上 发 布 。 读 者 可 通过 作者 微 信 公众 号 TipDM ( 微 信号 : TipDataMining) 、TipDM 官 网 (www.tipdm.com) 反馈 有 关 问 题 。 也 可 通过 热线 电话 
(40068-40020) 或 企业 QQ (40068-40020) 进行 在 线 咨 询 。 


如 果 你 有 更 多 宝贵 意见 ， 欢 迎 发 送 邮 件 至 邮箱 13560356095@qq.com， 期 待 能 够 得 到 你 的 真挚 反馈 。 
致谢 


本 书 编写 过 程 中 得 到 了 广大 企 事业 单位 科研 人 员 的 大 力 支持 ， 在 此 说 向 中 国电 力 科学 研究 院 、 广 东 电 力 科学 研究 院 、 广 西 电力 科学 研究 院 、 华 南 师范 大 学 、 广 东 工业 大 学 、 广 东 技 术 师 范 学 院 、 南 京 中 
医药 大 学 、 华 南 理工 大 学 、 湖 南 师 范 大 学 、 韩 山 师 范 学 院 、 中 山大 学 、 广 州 素 迪 智能 科技 有 限 公 司 等 单位 给 予 支持 的 专家 及 师 生 致 以 深 深 的 谢意 。 


在 本 书 的 编辑 和 出 版 过 程 中 还 得 到 了 参与 “ 泰 迪 杯 ”全 国 数据 挖 据 建 模 竟 赛 的 众多 师 生 及 机 械 工业 出 版 社 杨 福 川 老师 、 李 艺 编 辑 的 大 力 帮 助 与 支持 ， 在 此 一 并 表示 感谢 。 
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第 1 章 ” 浅 谈 大 数据 
当 你 早上 起 床 ， 拿 起 牙刷 刷牙 ， 你 是 否 会 想到 从 拿 起 牙刷 到 刷 完 牙 的 整个 过 程 中 有 多 少 细胞 参与 其 中 ? 这 些 细胞 在 参与 的 过 程 中 会 结合 周围 环境 (可 能 是 宏观 的 天 气 、 温 度 、 气 压 等 ， 可 能 是 微观 的 分 


空气 中 的 微生物 等 ) ， 由 你 的 意识 控制 而 产生 不 同 的 反映 。 如 果 我 说 结合 这 些 所 有 的 信息 ， 可 以 预测 你 接 下 来 的 0.00000001 秒 的 动作 ， 那 么 ， 你 肯定 说 ， 这 我 也 可 以 预测 咋 。 比 如 正常 情况 下 ， 你 脚 拾 
起 来 走路 ， 那 么 抬 起 来 后 ， 肯 定 是 要 落下 去 的 ， 这 算 哪 门 子 预测 呢 ? 那 如 果 我 说 可 以 预测 你 接 下 来 一 个 小 时 的 动作 呢 ? 甚至 一 天 ， 一 个 月 ， 一 年 呢 ? 其 实 这 也 可 以 勉强 说 是 一 个 大 数据 案例 了 


听 起 来 有 点 压 张 ? 


说 个 大 家 熟悉 的 大 数据 吧 。 相 信 很 多 人 都 买 过 股票 (或 者 至 少 知道 买 股 票 这 件 事情 ) ， 如 果 有 人 可 以 整合 所 有 信息 (包含 基本 的 股票 信息 : 股票 涨 跌 ; 公司 情况 : 如 公司 大 小 、 业 务 等 ;政策 情况 : 可 
能 政府 突然 颁布 了 一 个 红头 文件 等 ) ， 首 先 肯 定 这 些 信息 可 以 被 认为 是 “大 数据 ”， 其 次 对 这 些 “ 大 数据 ”进行 分 析 建 模 ， 如 果 可 以 预测 股票 的 涨 跌 ， 那 么 这 就 是 一 个 实 实在 在 的 大 数据 案例 了 


再 说 一 个 电影 桥 上 赌 神 ” 一 般 都 可 以 预测 摇 色 子 的 点 数 或 者 说 摇 色 子 摇 到 的 最 大 点 数 ， 那 么 在 现实 情况 中 ， 这 个 可 能 实现 吗 ? 试想 这 样 一 个 场景 : 一 个 人 不 停 地 摇 色 子 ， 然 后 把 据 色 子 的 声音 以 及 
最 后 的 点 数 记 录 下 来 ， 不 停 地 摇 ， 不 停 地 记录 ， 那 么 就 会 形成 一 个 巨大 的 数据 集 ， 从 而 可 以 使 用 这 个 巨大 的 数据 集 进行 建 模 ， 即 可 以 预测 色 子 的 点 数 了 。 你 也 可 以 将 这 个 理解 为 一 个 大 数据 的 应 用 。 


现在 ， 你 是 否 已 经 有 点 懂 “ 大 数据 T? 


第 1 草 浅 淡 大 数据 


当 你 早上 起 床 ， 拿 起 牙刷 刷牙 ， 你 是 否 会 想到 从 拿 起 牙刷 到 刷 完 牙 的 整个 过 程 中 有 多 少 细胞 参与 其 中 ? 这 些 细胞 在 参与 的 过 程 中 会 结合 周围 环境 (可 能 是 宏观 的 天 气 、 温 度 、 气 压 等 ， 可 能 是 微观 的 分 
子 、 空 气 中 的 微生物 等 ) ， 由 你 的 意识 控制 而 产生 不 同 的 反映 。 如 果 我 说 结合 这 些 所 有 的 信息 ， 可 以 预测 你 接 下 来 的 0.00000001 秒 的 动作 ， 那 么 ， 你 肯定 说 ， 这 我 也 可 以 预测 呀 。 比 如 正常 情况 下 ， 你 脚 抬 
起 来 直路， 那么 抬 起 来 后 ， 肯 定 是 要 落下 去 的 ， 这 工 哪 门 子 预测 呢 ? 那 如 果 我 说 可 以 预测 你 接 下 来 一 个 小 时 的 动作 呢 ? 甚至 一 天 ， 一 个 月 ， 一 年 呢 ? 其 实 这 也 可 以 勉强 说 是 一 个 大 数据 案例 了 


听 起 来 有 点 压 张 ? 


说 个 大 家 熟悉 的 大 数据 吧 。 相 信 很 多 人 都 买 过 股票 〈 或 者 至 少 知道 买 股票 这 件 事情 ) ， 如 果 有 人 可 以 整合 所 有 信息 (包含 基本 的 股票 信息 : 股票 涨 跌 ; 公司 情况 : 如 公司 大 小 、 业 务 等 政策 情况 : 可 
能 政府 突然 颁布 了 一 个 红头 文件 等 ) ， 首 先 肯定 这 些 信息 可 以 被 认为 是 “大 数据 ”， 其 次 对 这 些 “ 大 数据 ”进行 分 析 建 模 ， 如 果 可 以 预测 股票 的 涨 跌 ， 那 么 这 就 是 一 个 实 实在 在 的 大 数据 案例 了 


再 说 一 个 电影 桥 段 : “财神 ”一 般 都 可 以 预测 毛色 子 的 点 数 或 者 说 摇 色 子 摇 到 的 最 大 点 数 ， 那 么 在 现实 情况 中 ， 这 个 可 能 实现 吗 ? 试想 这 样 一 个 场景 : 一 个 人 不 停 地 播 色 子 ， 然 后 把 扬 色 子 的 声音 以 及 
最 后 的 点 数 记 录 下 来 ， 不 停 地 摇 ， 不 停 地 记录 ， 那 么 就 会 形成 一 个 巨大 的 数据 集 ， 从 而 可 以 使 用 这 个 巨大 的 数据 集 进行 建 模 ， 即 可 以 预测 色 子 的 点 数 了 。 你 也 可 以 将 这 个 理解 为 一 个 大 数据 的 应 用 。 


现在 ， 你 是 否 已 经 有 点 懂 “ 大 数据 T? 


1.1 大 数据 概述 
来 看 看 所 谓 官网 定义 的 大 数据 : 大 数据 (Big data) 或 称 巨 量 数据 、 海 量 数据 、 大 资料 ， 指 的 是 所 涉及 的 数据 量规 模 巨 大 到 无 法 通过 人 工 或 者 计算 机 ， 在 合理 的 时 间 内 达到 截取 、 管 理 、 处 理 并 整理 成 
为 人 类 所 能 解读 的 形式 的 信息 。 


看 得 懂 吗 ”好 像 也 不 是 那么 难以 理解 。 首 先 ， 这 些 数 据 要 够 多 ， 即 规模 巨大 ;第 二 ， 这 些 数据 不 能 够 在 合理 的 时 间 内 被 处 理 并 分 析 ， 也 就 意味 着 ， 对 于 一 个 人 来 说 ， 如 果 让 他 在 1 天 内 看 完 1 万 本 书 ， 并 
写 相应 的 书评 ， 那 么 这 1 万 本 书 对 于 这 个 人 来 说 就 是 大 数据 ; 但 是 ， 如 果 让 1 万 个 人 在 1 天 内 看 1 万 本 书 ， 并 写 对 应 书评 ， 那 么 其 实 是 可 以 完成 的 任务 ， 这 样 这 1 万 本 书 对 于 这 1 万 个 人 来 说 就 不 是 大 数据 了 。 


大 数据 有 哪些 特点 呢 ? 


首先 ， 可 以 肯定 的 是 数据 量 比 较 大 ， 它 才能 被 称 为 大 数据 ， 所 以 其 第 一 个 特点 就 是 数据 体 量 巨 大 。 其 次 ,数据 的 类 型 多 样 也 是 大 数据 的 一 个 特征 ， 数 据 类 型 不 仅 指 文本 形式 ， 更 多 指 的 是 图 片 、 视 频 、 
音频 、 地 理 位 置信 息 等 多 类 型 的 数据 ， 个 性 化 数据 占 绝 大 多 数 。 第 三 ， 处 理 速 度 快 也 是 大 数据 的 一 个 特征 ， 数 据 处 理 遵 循 “1 秒 定律 ”， 可 从 各 种 类 型 的 数据 中 快速 获得 高 价值 的 信息 。 最 后 ， 大 数据 具有 价 
值 密度 低 的 特点 ， 以 视频 为 例 ，1 小 时 的 监控 视频 ， 在 不 间断 的 监控 过 程 中 ， 可 能 有 用 的 数据 仅仅 只 有 一 两 秒 。 


生活 中 大 数据 有 哪些 应 用 呢 ? 
随 着 大 数据 的 应 用 越 来 越 广泛 ， 应 用 的 行业 也 越 来 越 多 ， 我 们 每 天 都 可 以 看 到 大 数据 的 一 些 新 奇 的 应 用 ， 从 而 帮助 人 们 从 中 获取 到 真正 有 用 的 价值 信息 。 
(1) 理解 客户 ， 满 足 客 户 服务 需求 


大 数据 的 应 用 目前 在 这 个 领域 是 最 广为人知 的 。 重 点 是 如 何 应 用 大 数据 更 好 地 了 解 客户 以 及 他 们 的 爱好 和 行为 。 企 业 非 常 喜欢 搜集 社交 方面 的 数据 、 浏 览 器 的 日 志 、 分 析 文 本 和 传感器 的 数据 ， 从 而 更 
加 全 面 地 了 解 客户 。 在 一 般 情 况 下 ， 企 业 会 采用 建立 数据 模型 的 方式 进行 预测 。 


比如 美国 的 著名 零售 商 Target 就 是 通过 大 数据 分 析 得 到 有 价值 的 信息 ， 精 准 地 预测 到 客户 在 什么 时 候 想 要 小 孩 。 再 比如 ， 通 过 大 数据 应 用 ， 电 信 公 司 可 以 更 好 地 预测 出 流失 的 客户 ， 沃 尔 玛 则 更 加 精准 
地 预测 出 哪个 产品 会 大 卖 ， 汽 车 保险 行业 会 更 加 了 解 客 户 的 需求 和 驾驶 水 平 ， 外 国 候选 政党 也 能 了 解 到 选民 的 偏好 。 


(2) 提高 医疗 水 平和 研发 效率 


大 数据 分 析 应 用 的 计算 能 力 可 以 让 我 们 能 够 在 几 分 钟 内 解码 整个 DNA， 并 且 制 定 出 最 新 的 治疗 方案 ， 同 时 更 好 地 了 解 和 预测 疾病 。 大 数据 技术 目前 已 经 在 医疗 中 应 用 ， 如 监视 早产 贾 儿 和 患 病 婴 儿 的 情 
况 ， 通 过 记录 和 分 析 婴 儿 的 心跳 ， 对 婴儿 的 身体 可 能 出 现 的 不 适 症状 做 出 预测 ， 从 而 更 好 地 救治 婴儿 。 


(3) 改善 安全 和 执法 


目前 来 说 ， 大 数据 已 经 广泛 应 用 到 安全 执法 的 过 程 当中 。 想 必 大 家 都 知道 美国 安全 局 已 经 开始 利用 大 数据 打击 恐怖 主义 ， 甚 至 监控 可 疑 人 的 日 常生 活 。 而 企业 则 应 用 大 数据 技术 防御 网 络 攻击 ， 警 察 应 
用 大 数据 工具 捕捉 罪犯 ， 信 用 卡 公司 应 用 大 数据 工具 来 检测 欺诈 性 交易 等 。 


(4) 改善 我 们 的 城市 
大 数据 还 被 用 来 改善 我 们 所 生活 的 城市 。 例 如 基于 城市 实时 交通 信息 、 利 用 社交 网 络 和 大气 数据 来 优化 最 新 的 交通 情况 。 目 前 很 多 城市 都 在 进行 相关 的 大 数据 分 析 和 试点 。 
(5) 金融 交易 


大 数据 在 金融 行业 主要 是 用 于 金融 交易 。 高 频 交 易 (HFT) 是 大 数据 应 用 比较 多 的 领域 ， 其 中 大 数据 算法 被 应 用 于 交易 决定 。 现 在 很 多 股权 的 交易 都 是 利用 大 数据 算法 进行 的 ， 这 些 算法 越 来 越 多 地 考 
虑 了 社交 媒体 和 网 站 新 闻 来 决定 在 未 来 几 秒 内 是 买 入 还 是 卖 出 。 


通过 上 面 的 摘 述 也 可 以 看 出 ， 大 数据 不 只 是 适用 于 企业 和 政府 ， 同 样 也 适用 于 我 们 生活 当中 的 每 个 人 。 我 们 可 以 利用 可 穿戴 装备 (如 智能 手表 或 者 智能 手 环 ) 生成 最 新 的 数据 ， 对 热量 的 消耗 以 及 睡眠 
模式 进行 追踪 ;还 可 以 利用 大 数据 分 析 来 寻找 属于 我 们 的 爱情 ， 大 多 数 的 交友 网 站 就 是 应 用 大 数据 工具 来 帮助 需要 的 人 匹配 合适 的 对 象 。 


12 ”大 数据 平台 


大 数据 平台 有 哪些 呢 ? 


一 般 认 为 大 数据 平台 分 为 两 个 方面 ， 硬 件 平台 和 软件 平台 。 硬 件 平台 一 般 如 Open-Stack、Amazon 云 平台 、 阿 里 云 计算 等 ， 类 似 这 样 的 平台 其 实 做 的 是 虚拟 化 ， 即 把 多 台 机 器 或 一 台 机 器 虚拟 化 成 一 个 
资源 池 ， 然 后 给 成 干 上 万 人 用 ， 各 自 租 用 相应 的 资源 服务 等 。 而 软件 平台 则 是 大 家 经 常 听 到 的 ， 如 Hadoop、MapReduce、Spark 等 ， 也 可 以 狭义 理解 为 Hadoop 生 态 圈 ， 即 把 多 个 节点 资源 (可 以 是 虚拟 
节点 资源 ) 进行 整合 ， 作 为 一 个 集群 对 外 提供 存储 和 运算 分 析 服 务 。 


Hadoop 生 态 圈 大 数据 平台 ， 可 以 大 概 分 为 3 种 : Apache Hadoop (原生 开源 Hadoop) 、Hadoop Distribution (Hadoop 发 行 版 )、Big Data Suite (大 数据 开发 套件 ) 。Apache Hadoop 是 原生 
， 即 官网 提供 的 ， 只 包含 基本 的 软件 ;Hadoop Distribution 是 一 些 软件 供应 商 提供 的 ， 具 有 的 功能 相对 多 ， 这 个 版 本 有 收费 版 也 有 免费 版 ， 用 户 可 选 ; 而 大 数据 开发 套件 则 是 一 些 大 公司 提供 的 集成 方 
， 提 供 的 功能 更 多 ， 但 是 相应 的 也 比较 贵 。 


N € 


Apache Hadoop 是 开源 的 ， 用 户 可 以 直接 访问 或 更 改 代码 。 它 是 完全 分 布 式 的 ， 配 置 包含 用 户 权限 、 访 问 控制 等 ， 再 加 上 多 种 生态 系统 软件 支持 ， 比 较 复杂 。 这 里 涉及 版 本 不 兼容 性 问题 。 所 以 该 版 
本 比较 适合 学 习 并 理解 底层 细节 或 Hadoop 详 细 配置 、 调 优等 。 


Hadoop Distribution 版 本 简化 了 用 户 的 操作 以 及 开发 任务 ， 比 如 可 以 一 键 部 署 等 ， 而 且 有 配套 的 生态 圈 支 持 以 及 管理 监控 功能 ， 如 业内 广泛 使 用 的 HPDP、CDH、MapR 等 平台 。CDH 是 最 成 型 的 发 行 
版 本 ， 拥 有 最 多 的 部 署 案例 ， 而 且 提供 强大 的 部 署 、 管 理 和 监控 工具 ， 其 开发 公司 Cloudera 贡 献 了 自己 的 可 实时 处 理 大 数据 的 Impala 项 目 。HDP 是 100% 开 源 Apache Hadoop 的 唯一 提供 商 ， 其 开发 公司 
Hortonworks 开 发 了 很 多 增强 特性 并 提交 至 核心 主干 ， 并 且 Hortonworks 为 入 门 者 提供 了 一 个 非常 好 的 、 易 于 使 用 的 沙 盒 。MapR 为 了 获取 更 好 的 性 能 和 易 用 性 而 支持 本 地 UNIX 文 件 系 统 而 不 是 HDFS (使 
用 非 开 源 的 组 件 ) ， 并 且 可 以 使 用 本 地 UNIX 命 令 来 代 蔡 Hadoop 命 令 。 除 此 之 外 ，MapR 还 凭借 诸如 快照 、 镜 像 或 有 状态 的 故障 恢复 之 类 的 高 可 用 性 特性 来 与 其 他 竞争 者 相 区 别 。 当 需要 一 个 简单 的 学 习 环 


Big Data Suite (大 数据 套件 ) 是 建立 在 Eclipse 之 类 的 IDE 之 上 的 ， 其 附加 的 插件 极 大 地 方便 了 大 数据 应 用 的 开发 。 用 户 可 以 在 自己 熟悉 的 开发 环境 之 内 创建 、 构 建 并 部 署 大 数据 服务 ， 并 且 生 成 所 有 的 
代码 ， 从 而 做 到 不 用 编写 、 调 试 、 分 析 和 优化 MapReduce 代 码 。 大 数据 套件 提供 了 图 形 化 的 工具 来 为 你 的 大 数据 服务 进行 建 模 ， 所 有 需要 的 代码 都 是 自动 生成 的 ， 只 需 配 置 某 些 参数 即 可 实现 复杂 的 大 数 
据 作 业 。 当 企业 用 户 需要 不 同 的 数据 源 集成 、 自 动 代码 生成 或 大 数据 作业 自动 图 形 化 调度 时 ， 就 可 以 选择 使 用 大 数据 套件 。 


1.3 本章 小 结 


通过 本 章 的 介绍 ， 相 信 大 家 对 大 数据 有 了 一 个 比较 感性 的 认识 ， 那 接 下 来 学 习 什 么 呢 ? 


接 下 来 的 内 容 就 是 大 数据 技术 涉及 的 相关 技术 。 在 本 书 中 ， 大 数据 技术 仅 指 软件 层面 ， 比 如 使 用 Hadoop 生 态 圈 软件 等 ， 而 非 硬 件 平台 。 这 里 的 硬件 平台 主要 指 的 是 把 所 有 硬件 资源 整合 ， 使 其 虚拟 化 一 
个 资源 池 的 概念 ， 涉 及 的 技术 有 OpenStack、 亚 马 逊 云 平台 、 阿 里 云 平台 等 。 


在 后 面 的 章节 中 ， 主 要 介绍 Hadoop 生 态 圈 的 相关 技术 ， 如 HDFS、YARN、MapReduce、HBase、Hive、Pig、Spatk、Oozie 等 。 每 个 章节 采用 理论 加 实践 的 方式 ， 使 读者 能 够 在 理解 相关 技术 原理 的 基础 
E, 动手 操作 ， 加 深 理 解 ， 做 到 看 完 本 书 就 能 直接 上 手 实践 。 


“ 授 人 以 和 鱼 不 如 授 人 以 渔 ”， 期 望 本 书 能 成 为 愿意 学 习 大 数据 、 愿 意 加 入 到 大 数据 开发 行列 的 相关 人 员 的 一 蓝 指 路 明灯 ， 愿 读者 能 乐 享 其 中 。 


第 2 章 “ 大 数据 存储 与 运算 利器 Hadoop 


本 章 主要 介绍 了 Hadoop 框 架 的 概念 、 架 构 、 组 件 、 生 态 系 统 以 及 Hadoop 相 关 编 程 ， 特 别 是 针对 Hadoop 组 件 HDFS、MapReduce、YARN，Hadoop MapReduce 编 程 做 了 较 详 细 的 介绍 。 在 介绍 各 个 知识 点 的 


同时 ， 结 合 动手 实践 章节 ， 帮 助 读 者 理解 对 应 的 内 容 。 


2.1 Hadoop 概 述 


2.1.1 Hadoop 简 介 


随 着 现代 社会 的 发 展 ， 各 种 信息 数据 存量 与 增 量 都 非常 大 ， 很 多 情况 下 需要 我 们 能 够 对 TB 级 ， 甚 至 PB 级 数据 集 进 行 存 储 和 快速 分 析 ， 然 而 单机 的 计算 机 ， 无 论 是 硬盘 存储 、 网 络 IO、 计 算 CPU 还 是 内 存 
都 是 非常 有 限 的 。 针 对 这 种 情况 ，Hadoop 应 运 而 生 。 


那么 ，Hadoop 是 什么 呢 ? 我 们 可 以 很 容易 在 一 些 比 较 权威 的 网 站 上 找到 它 的 定义 ,例如 : Hadoop 是 一 个 由 Apache 基 金 会 所 开发 的 分 布 式 系统 基础 架构 ， 它 可 以 使 用 户 在 不 了 解 分 布 式 底层 细节 的 情 
况 下 开发 分 布 式 程序 ， 充 分 利用 集群 的 威力 进行 高 速 运算 和 存储 。 


从 其 定义 就 可 以 友 现 ， 它 解决 了 两 大 问题 : 大 数据 存储、 大 数据 分 析 。 也 就 是 Hadoop 的 两 大 核心 : HDFS 和 MapReduce。 

HDFS (Hadoop Distributed File System) 是 可 扩展 、 容 错 、 高 性 能 的 分 布 式 文件 系统 ， 异 步 复 制 ， 一 次 写 入 多 次 读 取 ， 主 要 负责 存储 。 

MapReduce 为 分 布 式 计 算 框架 ， 主 要 包含 map (映射) 和 reduce ( 归 约 ) 过 程 ， 负 责 在 HDFS 上 进行 计算 。 

要 深入 学 习 Hadoop， 就 不 得 不 提 到 Google 的 3 篇 相关 论文 ， 也 就 是 Hadoop 的 基础 理论 。 

- 2003 年 发 表 的 《The Google File System》， 黄 定 了 “ 首 个 商用 的 超大 型 分 布 式 文件 系统 ”， 从 而 验证 这 种 分 布 式 文件 系统 架构 是 可 行 的 。 

. 2004 年 发 表 的 《MapReduce: Simplifed Data Processing on Large Clusters》， 汲 取 了 函数 式 编 程 设计 思想 ， 倡 导 把 计算 移动 到 数据 思想 ， 该 思想 的 应 用 大 大 加 快 了 数据 的 处 理 分 析 。 
- 2006 年 发 表 的 《Bigtable: A Distributed Storage System for Structured Data» ， 这 一 论文 同样 也 是 告诉 大 家 ， 这 种 分 布 式 数 据 库 的 架构 是 可 行 的 。 


说 到 这 里 ， 我 们 来 简单 了 解 下 Hadoop 的 发 展 历 史 ， 如 图 2-1 所 示 。 
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图 2-1 Hadoop 发 展 历史 


2002 ~ 2004 年 ， 第 一 轮 互联 网 泡沫 刚刚 破灭 ， 很 多 互联 网 从 业 人 员 都 失业 了 。 我 们 的 “主角 ”Doug Cutting 也 不 例外 ， 他 只 能 写 点 技术 文章 赚 点 稿费 来 养家 糊口 。 但 是 Doug Cuttin r HRE, MA 
对 梦想 和 未 来 的 渴望 ， 与 他 的 好 朋友 Mike Cafarella 一 起 开发 出 一 个 开源 的 搜索 引擎 Nutch， 并 历时 一 年 把 这 个 系统 做 到 能 支持 亿 级 网 页 的 搜索 。 但 是 当时 的 网 页 数量 远 远 不 止 这 个 规模 ， 所 以 两 人 不 断 改 
进 ， 想 让 支持 的 网 页 量 再 多 一 个 数量 级 。 


在 2003 年 和 2004 年 ，Google 分 别 公布 了 GFS 和 MapReduce 两 篇 论文 。Doug Cutting 和 Mike Cafarella 发 现 这 与 他 们 的 想法 不 尽 相同 ， 且 更 加 完美 ， 完 全 脱离 了 人 工 运 维 的 状态 ， 实 现 了 自动 化 。 


在 经 过 一 系列 周密 考虑 和 详细 总 结 后 ，2006 年 ，Dog Cutting 放 弃 创业 ， 随 后 几经 周折 加 入 了 Yahoo 公 司 (Nutch 的 一 部 分 也 被 正式 引入 ) ， 机 缘 巧 合 下 ， 他 以 自己 儿子 的 一 个 玩具 大 象 的 名 字 
Hadoop 命 名 了 该 项 目 。 


当 系 统 进入 Yahoo 以 后 ,项 目 逐 渐 发 展 并 成 熟 了 起 来 。 首 先是 集群 规模 ， 从 最 开始 几 十 台 机 器 的 规模 发 展 到 能 支持 上 干 个 节点 的 机 器 ， 中 间 做 了 很 多 工程 性 质 的 工作 ;然后 是 除 搜索 以 外 的 业务 开 
发 ，Yahoo 逐 步 将 自己 广告 系统 的 数据 挖掘 相关 工作 也 迁移 到 了 Hadoop 上 ， 使 Hadoop 系 统 进一步 成 熟化 了 。 


2007 年 ， 纽 约 时 报 在 100 个 亚马逊 的 虚拟 机 服务 器 上 使 用 Hadoop 转 换 了 4TB 的 图 片 数据 ， 更 加 加 深 了 人 们 对 Hadoop 的 印象 。 


在 2008 年 的 时 候 ， 一 位 Google 的 工程 师 发 现 要 把 当时 的 Hadoop 放 到 任意 一 个 集群 中 去 运行 是 一 件 很 困难 的 事情 ， 所 以 就 与 几 个 好 朋友 成 立 了 一 个 专门 商业 化 Hadoop 的 公司 Cloudera。 同 
年 ，Facebook 团 队 发 现 他 们 很 多 人 不 会 写 Hadoop 的 程序 ， 而 对 SQL 的 一 套 东 西 很 熟 ， 所 以 他 们 就 在 Hadoop 上 构建 了 一 个 叫 作 Hive 的 软件 ， 专 门 用 于 把 SQL 转换 为 Hadoop 的 MapReduce 程 序 。 


2011 年 ，Yahoo 将 Hadoop 团 队 独 立 出 来 ， 成 立 了 一 个 子 公 司 Hortonworks， 专 门 提供 Hadoop 相 关 的 服务 。 
说 了 这 么 多 ， 那 Hadoop 有 哪些 优点 呢 ? 
Hadoop 是 一 个 能 够 让 用 户 轻 松 架构 和 使 用 的 分 布 式 计算 的 平台 。 用 户 可 以 轻松 地 在 Hadoop 上 开发 和 运行 处 理 海量 数据 的 应 用 程序 。 其 优点 主要 有 以 下 几 个 。 
- 高 可 靠 性 : Hadoop 按 位 存储 和 处 理 数据 的 能 力 值得 人 们 信赖 。 
: 高 扩展 性 : Hadoop 是 在 可 用 的 计算 机 集 徐 间 分 配 数 据 并 完成 计算 任务 的 ， 这 些 集 比 可 以 方便 地 扩展 到 数 以 千 计 的 节点 中 。 
: 高 效 性 : Hadoop 能 够 在 节点 之 间 动 态 地 移动 数据 ， 并 保证 各 个 节点 的 动态 平衡 ， 因 此 处 理 速 度 非常 快 。 
| 高 容错 性 : Hadoop 能 够 自动 保存 数据 的 多 个 副本 ， 并 且 能 够 自动 将 失败 的 任务 重新 分 配 。 
. 低 成 本 : 与 一 体 机 、 商 用 数据 仓库 以 及 QlikView、YonghongZ-Suite 等 数据 集 市 相 比 ，Hadoop 是 开源 的 ， 项 目的 软件 成 本 因此 会 大 大 降低 。 


- Hadoop 带 有 用 Java 语 言 编写 的 框架 ， 因 此 运行 在 Linux 生 产 平台 上 是 非常 理想 的 ，Hadoop 上 的 应 用 程序 也 可 以 使 用 其 他 语言 编写 ， 比 如 C++。 


2.1.2 ”Hadoop 存 储 一 HDFS 
Hadoop 的 存储 系统 是 HDFS (Hadoop Distributed File System) 分 布 式 文件 系统 ， 对 外 部 客户 端 而 言 ，HDFS 就 像 一 个 传统 的 分 级 文件 系统 ， 可 以 进行 创建 、 删 除 、 移 动 或 重 命名 文件 或 文件 夹 等 操 
作 ， 与 Linux 文 件 系统 类 似 。 


但 是 ，Hadoop HDFS 的 架构 是 基于 一 组 特定 的 节点 构建 的 ( 见 图 2-2) ， 这 些 节点 包括 名 称 节点 (NameNode， 仪 一 个 ) ， 它 在 HDFS 内 部 提供 元 数据 服务 ;第 二 名 称 节点 (Secondary 
NameNode) ， 名 称 节点 的 帮助 节点 ， 主 要 是 为 了 整合 元 数据 操作 (注意 不 是 名 称 节点 的 备份 ) ; 数据 节点 (DataNode) ， 它 为 HDFs 提 供 存储 块 。 由 于 仅 有 一 个 NameNode， 因 此 这 是 HDFSs 的 一 个 缺 
点 ( 单 点 失败 ， 在 Hadoop2.X 后 有 较 大 改善 ) 。 


HDFS Architecture 


, Metadata(Name,replicas,...): 
Metadata ops —14 NameNode /home/foo/data,3,... 
Block ops ^n 
 /Read DataNode N DataNode 


a Cm 


P d P" sii 
-— 


MO i " 
VIS, ant 


图 2-2 Hadoop HDFS 架 构 


存储 在 HDFS 中 的 文件 被 分 成 块 ， 然 后 这 些 块 被 复制 到 多 个 数据 节点 中 (DataNode) ， 这 与 传统 的 RAID 架 构 大 不 相同 。 块 的 大 小 (通常 为 128MB) 和 复制 的 块 数量 在 创建 文件 时 由 客户 机 决定 。 名 称 
节点 可 以 控制 所 有 文件 操作 。HDFS 内 部 的 所 有 通信 都 基于 标准 的 TCP/IP 协 议 。 


关于 各 个 组 件 的 具体 描述 如 下 所 示 : 
(1) 名 称 节 点 (NameNode) 


它 是 一 个 通常 在 HDFS 架 构 中 单独 机 器 上 运行 的 组 件 ， 负 责 管理 文件 系统 名 称 空间 和 控制 外 部 客户 机 的 访问 。NameNode 决 定 是 否 将 文件 映射 到 DataNode 上 的 复制 块 上 。 对 于 最 常见 的 3 个 复制 块 ， 第 
一 个 复制 块 存储 在 同一 机 架 的 不 同 节点 上 ， 最 后 一 个 复制 块 存储 在 不 同 机 架 的 某 个 节点 上 。 


(2) 数据 节点 (DataNode) 
数据 节点 也 是 一 个 通常 在 HDFS 架 构 中 的 单独 机 器 上 运行 的 组 件 。Hadoop 集 群 包含 一 个 NameNode 和 大 量 DataNode。 数 据 节点 通常 以 机 架 的 形式 组 织 ， 机 架 通过 一 个 交换 机 将 所 有 系统 连接 起 来 。 


数据 节点 响应 来 自 HDFS 客 户 机 的 读 写 请 求 。 它 们 还 响应 来 自 NameNode 的 创建 、 删 除 和 复制 块 的 命令 。 名 称 节点 依赖 来 自 每 个 数据 节点 的 定期 心跳 (heartbeat) 消息 。 每 条 消息 都 包含 一 个 块 报 
告 ， 名 称 节点 可 以 根据 这 个 报告 验证 块 映射 和 其 他 文件 系统 元 数据 。 如 果 数 据 节 点 不 能 发 送 心跳 消息 ， 名 称 节点 将 采取 修复 措施 ， 重 新 复制 在 该 节点 上 丢失 的 块 。 


(3) 第 二 名 称 节点 (Secondary NameNode) 


第 二 名 称 节点 的 作用 在 于 为 HDFS 中 的 名 称 节点 提供 一 个 Checkpoint， 它 只 是 名 称 节点 的 一 个 助手 节点 ， 这 也 是 它 在 社区 内 被 认为 是 Checkpoint Node 的 原因 。 
如 图 2-3 所 示 ， 只 有 在 NameNode 重 启 时 ，edits 才 会 合并 到 fsimage 文 件 中 ， 从 而 得 到 一 个 文件 系统 的 最 新 快照 。 但 是 在 生产 环境 集群 中 的 NameNode 是 很 少 重启 的 ， 这 意味 着 当 NameNode 运 行 很 


长 时 间 后 ，edits 文 件 会 变 得 很 大 。 而 当 NameNode 宕 机 时 ，edits 就 会 丢失 很 多 改动 ， 如 何 解 决 这 个 问题 呢 ? 
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图 2-3 ”名 称 节 点 功 


eC 
C ^ fsimage 是 Namenode 启 动 时 对 整个 文件 系统 的 快照 ，edits 是 在 Namenode 启 动 后 对 文件 系统 的 改动 序列 。 


如 图 2-4 所 示 ，Secondary NameNode 会 定时 到 NameNode 去 获取 名 称 节点 的 edits， 并 及 时 更 新 到 自己 fsimage 上 。 这 样 ， 如 果 NameNode 宕 机 ， 我 们 也 可 以 使 用 Secondary-Namenode 的 信息 来 
恢复 NameNode。 并 且 ， 如 果 SecondaryNameNode 新 的 fsimage 文 件 达 到 一 定 阔 值 ， 它 就 会 将 其 拷贝 回 名 称 节点 上 ， 这 样 NameNode 在 下 次 重启 时 会 使 用 这 个 新 的 fsimage 文 件 ， 从 而 减少 重启 的 时 
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图 2-4 NameNode 帮 助 节点 SecondatyNameNode 
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举 个 数据 上 传 的 例子 来 深入 理解 下 HDFS 内 部 是 怎么 做 的 ， 如 图 2-5 所 示 。 


(D 文 件 拆 分 成 块 NameNode | Secondary 
| NameNode 


| 客户 N 3 [nl DataNodes 


E 


一 -一 一 


— 


| 
a——Ó 
— 


DataNode 1 DataNode 2 DataNode B . DataNode 4 DataNode 5. 
BRI 机 染 2 


图 2-5 HDFS 文 件 上 传 
文件 在 客户 端 时 会 被 分 块 ， 这 里 可 以 看 到 文件 被 分 为 5 个 块 ， 分别 是 : 和 A、B、C、D、E。 同 时 为 了 负载 均衡 ， 所 以 每 个 节点 有 3 个 块 。 下 面 来 看 看 具体 步骤 : 


1 


小 -一 


客户 端 将 要 上 传 的 文件 按 128MB 的 大 小 分 块 。 
2) 客户 端 向 名 称 节点 发 送 写 数 据 请 求 。 
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名 称 节 点 记录 各 个 DataNode 信 息 ， 并 返回 可 用 的 DataNode 列 表 。 
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5) 写 入 完成 后 ，DataNode 向 NameNode 发 送 消息 ， 更 新 元 数据 。 


1) 写 1T 文 件 ， 需 要 3T 的 存储 ，3T 的 网 络 流量 。 


2) 在 执行 读 或 写 的 过 程 中 ，NameNode 和 DataNode 通 过 HeartBeat 进 行 保存 通信 ， 确 定 DataNode 活 着 。 如 果 发 现 DataNode 死 掉 了 ， 就 将 死 掉 的 DataNode 上 的 数据 ， 放 到 其 他 节点 去 ， 读 取 时 ， 


读 其 他 节点 。 


3) 宕 掉 一 个 节点 没关系 ， 还 有 其 他 节点 可 以 备份 ; 甚至 ， 宕 掉 某 一 个 机 架 也 没关系 ; 其 他 机 架 上 也 有 备份 。 


2.1.3 Hadoop 计 算 一 MapReduce 


MapReduce 是 Google 提 出 的 一 个 软件 架构 ， 用 于 大 规模 数据 集 (大 于 1TB) 的 并 行 运算 。 概 念 “Map (映射 ) ”和 “Reduce (归纳 ) ”以 及 它们 的 主要 思想 ， 都 是 从 函数 式 编 程 语言 借 来 的 ， 还 有 从 


矢量 编程 语言 借 来 的 特性 。 


当前 的 软件 实现 是 指定 一 个 Map (映射 ) 函数 ， 用 来 把 一 组 键 值 对 映射 成 一 组 新 的 键 值 对 ， 指 定 并 发 的 Reduce (归纳 ) 函数 ， 用 来 保证 所 有 了 映射 的 键 值 对 中 的 每 一 个 共享 相同 的 键 组 ， 如 图 2-6 所 示 。 


MapReduce: Hadoop 分 布 式 计算 框架 
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图 2-6 ”Map/Reduce 简 单 理 解 


下 面 将 以 Hadoop 的 “Hello World” 例 程 一 单词 计数 来 分 析 MapReduce 的 逻辑 ， 如 图 2-7 所 示 。 一 般 的 MapReduce 程 序 会 经 过 以 下 几 个 过 程 : 输入 (Input) 、 输 入 分 片 (Splitting) 、Map 阶 段 、 
Shuffle 阶 段 、Reduce 阶 段 、 输 出 (Final result) 。 


The overall MapReduce word count process 


Input Splitting Mapping Shuffling Reducing Final result 
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图 2-7 Hadoop MapReduce 单 词 计数 逻辑 
1) 输入 就 不 用 说 了 ， 数 据 一 般 放 在 HDFS 上 面 就 可 以 了 ， 而 且 文 件 是 被 分 块 的 。 关 于 文件 块 和 文件 分 片 的 关系 ， 在 输入 分 片 中 说 明 。 


2) WADA: 在 进行 Map 阶 段 之 前 ，MapReduce 框 架 会 根据 输入 文件 计算 输入 分 片 (split) ， 每 个 输入 分 片 会 对 应 一 个 Map 任 务 ， 输 入 分 片 往往 和 HDFs 的 块 关系 很 密切 。 例 如 ，HDFs 的 块 的 大 小 
是 128MB， 如 果 我 们 输入 两 个 文件 ， 大 小 分 别 是 27MB、129MB， 那 么 27MB 的 文件 会 作为 一 个 输入 分 片 (不 足 128M 会 被 当 作 一 个 分 片 ) ， 而 129MB 则 是 两 个 输入 分 片 (129-128 = 1， 不 足 128MB， 所 
以 1MB 也 会 被 当 作 一 个 输入 分 片 ) ， 所 以 ,一 般 来 说 ， 一 个 文件 块 会 对 应 一 个 分 片 。 如 图 2-7 所 示 ，Splitting 对 应 下 面 的 三 个 数据 应 该 理解 为 三 个 分 片 。 


3) Map 阶 段 : 这 个 阶段 的 处 理 逻 辑 其 实 就 是 程序 员 编 写 好 的 Map 函 数 ， 因 为 一 个 分 片 对 应 一 个 Map 任 务 ， 并 且 是 对 应 一 个 文件 块 ， 所 以 这 里 其 实 是 数据 本 地 化 的 操作 ， 也 就 是 所 谓 的 移动 计算 而 不 是 
移动 数据 。 如 图 2-7 所 示 ， 这 里 的 操作 其 实 就 是 把 每 句 话 进行 分 割 ， 然 后 得 到 每 个 单词 ， 再 对 每 个 单词 进行 映射 ， 得 到 单词 和 1 的 键 值 对 。 


HAN 


4) Shuffle 阶 段 : 这 是 “奇迹 ”发 生 的 地 方 ，MapReduce 的 核心 其 实 就 是 Shuffle。 那 么 Shuffle 的 原理 呢 ? shuffle 就 是 将 Map 的 输出 进行 整合 ， 然 后 作为 Reduce 的 输入 发 送 给 Reduce。 简 单 理 解 就 
是 把 所 有 Map 的 输出 按照 键 进行 排序 ， 并 且 把 相对 键 的 键 值 对 整合 到 同一 个 组 中 。 如 图 2-7 所 示 ，Bear、Car、Deer、River 是 排序 的 ， 并 且 Bear 这 个 键 有 两 个 键 值 对 。 


5) Reduce 阶 段 : 与 Map 类 似 ， 这 里 也 是 用 户 编写 程序 的 地 方 ， 可 以 针对 分 组 后 的 键 值 对 进行 处 理 。 如 图 2-7 所 示 ， 针 对 同一 个 键 Bear 的 所 有 值 进行 了 一 个 加 法 操作 ， 得 到 <Bear，2> 这 样 的 键 值 对 。 
6) 输出 : Reduce 的 输出 直接 写 入 HDFS 上 ， 同 样 这 个 输出 文件 也 是 分 块 的 。 


说 了 这 么 多 ， 其 实 MapReduce 的 本 质 用 一 张 图 可 以 完整 地 表现 出 来 ， 如 图 2-8 所 示 。 
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图 2-8 MapReduce 4k 
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MapReduce 的 本 质 就 是 把 一 组 键 值 对 <K1，V1> 经 过 Map 阶 段 映 射 成 新 的 键 值 对 <K2，V2> ;接着 经 过 shuffle/sort 阶 段 进行 排序 和 “ 洗 牌 ”， 把 键 值 对 排序 ， 同 时 把 相同 的 键 的 值 整合 ， 最 后 经 过 
Reduce 阶 段 ， 把 整合 后 的 键 值 对 组 进行 逻辑 处 理 ， 输 出 到 新 的 键 值 对 <K3，V3>。 这 样 的 一 个 过 程 ， 其 实 就 是 MapReduce 的 本 质 。 


Hadoop MapReduce 可 以 根据 其 使 用 的 资源 管理 框架 不 同 ， 而 分 为 MR v1 和 YARN/MR v2 版 本 ， 如 图 2-9 所 示 。 


在 MR v1 版 本 中 ， 资 源 管理 主要 是 Jobtracker 和 TaskTracker。Jobtracker 主 要 负责 : 作业 控制 (作业 分 解 和 状态 监控 ) ， 主 要 是 MR 任务 以 及 资源 管理 ， 而 TaskTracker 主 要 是 调度 Job 的 每 一 个 子 任务 
task; 并 且 接 收 JobTracker 的 命令 。 
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图 2-9 ”MapReduce 发 展 历史 


在 YARN/MR v2 版 本 中 ，YARN 把 JobTracker 的 工作 分 为 两 个 部 分 : 


1) ResourceManager (资源 管理 器 ) 全 局 管理 所 有 应 用 程序 计算 资源 的 分 配 。 


2) ApplicationMaster 负 责 相 应 的 调度 和 协调 。 


NodeManager 是 每 一 台 机 器 框架 的 代理 ， 是 执行 应 用 程序 的 容器 ， 监 控 应 用 程序 的 资源 (CPU、 内 存 、 硬 盘 、 网 络 ) 使 用 情况 ， 并 且 向 调度 器 汇报 。 
2.1.4 ”Hadoop 资 源 管理 一 YARN 


在 上 一 节 中 我 们 看 到 ， 当 MapReduce 发 展 到 2.x 时 就 不 使 用 JobTracker 来 作为 自己 的 资源 管理 框架 ， 而 选择 使 用 YARN。 这 里 需要 说 明 的 是 ， 如 果 使 用 JobTracker 来 作为 Hadoop 集 群 的 资源 管理 框架 
的 话 ， 那 么 除了 MapReduce 任 务 以 外 ， 不 能 够 运行 其 他 任务 。 也 就 是 说 ， 如 果 我 们 集群 的 MapReduce 任 务 并 没有 那么 饱满 的 话 ， 集 群 资源 等 于 是 白白 浪费 的 。 所 以 提出 了 另外 的 一 个 资源 管理 架构 
YARN (Yet Another Resource Manager) 。 这 里 需要 注意 ，YARN 不 是 JobTracker 的 简单 升级 ， 而 是 “大 换血 ”。 同 时 Hadoop 2.X 也 包含 了 此 架构 。Apache Hadoop 2.X 项 目 包含 以 下 模块 。 


: Hadoop Common: 为 Hadoop 其 他 模块 提供 支持 的 基础 模块 。 
HDFS: Hadoop: 分 布 式 文件 系统 。 

YARN: 任务 分 配 和 集群 资源 管理 框架 
: MapReduce: 并 行 和 可 扩展 的 用 于 处 理 大 数据 的 模式 。 


如 图 2-10 所 示 ，YARN 资 源 管 理 框 架 包 括 ResourceManager (资源 管理 器 ) . Applica-tionMaster, NodeManager (节点 管理 器 ) 。 各 个 组 件 描述 如 下 。 


p G t 


r ApplicationMaster 


E Client application 


图 2-10 YARN 架 构 


(1) ResourceManager 
ResourceManager 是 一 个 全 局 的 资源 管理 器 ， 负 责 整个 系统 的 资源 管理 和 分 配 。 它 主要 由 两 个 组 件 构成 : 调度 器 (Scheduler) 和 应 用 程序 管理 器 (ApplicationManager, AM) 。 
scheduler 负 责 分 配 最 少 但 满足 Application 运 行 所 需 的 资源 量 给 Application。scheduler 只 是 基于 资源 的 使 用 情况 进行 调度 ， 并 不 负责 监视 /跟踪 Application 的 状态 ， 当 然 也 不 会 处 理 失 败 的 Task。 


ApplicationManager 负 责 处 理 客户 端 提交 的 Job 以 及 协商 第 一 个 Container 以 供 App-licationMaster 运 行 ， 并 且 在 ApplicationMaster 和 失败 的 时 候 会 重新 启动 ApplicationMaster (YARN 中 使 用 
Resource Container 概 念 来 管理 集群 的 资源 ，Resource Container 是 资源 的 抽象 ， 每 个 Container 包 括 一 定 的 内 存 、I10、 网 络 等 资源 ) 。 


(2) ApplicationMaster 
ApplicatonMaster 是 一 个 框架 特殊 的 库 ， 每 个 Application 有 一 个 ApplicationMaster， 主 要 管理 和 监控 部 署 在 YARN 集 群 上 的 各 种 应 用 。 
(3) NodeManager 


主要 负责 启动 Resourcemanager 分 配给 ApplicationMaster 的 Container， 并 且 会 监视 Container 的 运行 情况 。 在 启动 Container 的 时 候 ，NodeManager 会 设置 一 些 必 要 的 环境 变量 以 及 相关 文件 ; 当 
所 有 准备 工作 做 好 后 ， 才 会 启动 该 Container。 启 动 后 ，NodeManager 会 周期 性 地 监视 该 Container 运 行 占用 的 资源 情况 ， 若 是 超过 了 该 Container 所 声明 的 资源 量 ， 则 会 kill 掉 该 Container 所 代表 的 进 
程 。 


如 图 2-11 所 示 ， 该 集群 上 有 两 个 任务 (对 应 Node2、Node6 上 面 的 AM) ， 并 且 Node2 上 面 的 任务 运行 有 4 个 Container 来 执行 任务 ; 而 Node6 上 面 的 任务 则 有 2 个 Container 来 执行 任务 。 
2.1.5 ”Hadoop 生 态 系 统 


如 图 2-12 所 示 ，Hadoop 的 生态 圈 其 实 就 是 一 群 动物 在 狂欢 。 我 们 来 看 看 一 些 主要 的 框架 。 
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图 2-11 YARN 集 群 
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图 2-12 Hadoop 生 态 系统 


(1) HBase 
HBase (Hadoop Database) 是 一 个 高 可 靠 性 、 高 性 能 、 面 向 列 、 可 伸缩 的 分 布 式 存储 系统 ， 利 用 HBase 技 术 可 在 廉价 PC Server 上 搭建 起 大 规模 结构 化 存储 集群 。 

(2) Hive 

Hive 是 建立 在 Hadoop 上 的 数据 仓库 基础 构架 。 它 提供 了 一 系列 的 工具 ， 可 以 用 来 进行 数据 提取 转化 加 载 (ETL) ， 这 是 一 种 可 以 存储 、 查 询 和 分 析 存 储 在 Hadoop 中 的 大 规模 数据 的 机 制 。 
(3) Pig 

Pig 是 一 个 基于 Hadoop 的 大 规模 数据 分 析 平 台 ， 它 提供 的 SQL-LIKE 语 言 叫 作 Pig Latin。 该 语言 的 编译 器 会 把 类 SQL 的 数据 分 析 请 求 转换 为 一 系列 经 过 优化 处 理 的 Map-Reduce 运 算 。 


(4) Sqoop 


Sqoop 是 一 款 开源 的 工具 ， 主 要 用 于 在 Hadoop (Hive) 与 传统 的 数据 库 (MySQL、post-gresq|l 等 ) 间 进 行 数据 的 传递 ， 可 以 将 一 个 关系 型 数据 库 中 的 数据 导入 Hadoop 的 HDFS 中 ， 也 可 以 将 HDFS 
的 数据 导入 关系 型 数据 库 中 ， 如 图 2-13 所 示 。 


(5) Flume 


Flume 是 Cloudera 提 供 的 一 个 高 可 用 、 高 可 靠 、 分 布 式 的 海量 日 志 采 集 、 聚 合 和 传输 的 系统 ，Flume 支 持 在 日 志 系统 中 定制 各 类 数据 发 送 方 ， 用 于 收集 数据 。 同 时 ，Flume 提 供 对 数据 进行 简单 处 理 并 
写 到 各 种 数据 接受 方 ( 可 定制 ) 的 能 力 ， 如 图 2-14 所 示 。 
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图 2-13 ”Sqoop 功 能 
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图 2-14 Flume 数据 传输 
(6) Oozie 
Oozie 是 基于 Hadoop 的 调度 器 ， 以 XML 的 形式 写 调 度 流程 ， 可 以 调度 Mr、Pig、Hive、shell、jar 任 务 等 。 
主要 的 功能 如 下 。 
1) Workflow: 顺序 执行 流程 节点 ， 支 持 fork (分 支 多 个 节点 ) . join (将 多 个 节点 合并 为 一 个 ) 。 
2) Coordinator: 定时 触发 Workflow。 
3) Bundle Job: 绑 定 多 个 Coordinator。 


(7) Chukwa 


Chukwa 是 一 个 开源 的 、 用 于 监控 大 型 分 布 式 系统 的 数据 收集 系统 。 它 构建 在 Hadoop 的 HDFS 和 MapReduce 框 染 上 ， 继 承 了 Hadoop 的 可 伸缩 性 和 和 鲁 棒 性 。Chukwa 还 包含 了 一 个 强大 和 灵活 的 工具 
集 ， 可 用 于 展示 、 监 控 和 分 析 已 收集 的 数据 。 


(8) Zookeeper 


ZooKeeper 是 一 个 开放 源码 的 分 布 式 应 用 程序 协调 服务 ， 是 Google 的 Chubby 一 个 开源 的 实现 ， 是 Hadoop 和 Hbase 的 重要 组 件 ， 如 图 2-15 所 示 。 它 是 一 个 为 分 布 式 应 用 提供 一 致 性 服务 的 软件 ， 提 供 
的 功能 包括 : 配置 维护 、 域 名 服务 、 分 布 式 同 步 、 组 服务 等 。 


(9) Avro 
Avro 是 一 个 数据 序列 化 的 系统 。 它 可 以 提供 : 丰富 的 数据 结构 类 型 、 快 速 可 压缩 的 二 进 制 数据 形式 、 人 存储 持久 数据 的 文件 容器 、 远 程 过 程 调用 RPC。 
(10) Mahout 


Mahout 是 Apache Software Foundation (ASF) 旗下 的 一 个 开源 项 目 ， 提 供 一 些 可 扩展 的 机 器 学 习 领 域 经 典 算法 的 实现 ， 旨 在 帮助 开发 人 员 更 加 方便 快捷 地 创建 智能 应 用 程序 。Mahout 包 含 许多 实 
现 ， 包 括 聚 类 、 分 类 、 推 荐 过 滤 、 频 繁 子 项 挖掘 。 此 外 ， 通 过 使 用 Apache Hadoop 库 ， 可 以 有 效 地 将 Mahout 扩 展 到 云 中 。 
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图 2-15 Zookeeper% 44 


2.2 Hadoop 配 置 及 IDE 配 置 


2.2.4 准备 工作 


相关 软件 及 版 本 如 表 2-1 所 示 。 


A f 版 本 8i 
Linux OS CentOS 60.7 64 位 
JDK 
VMware 


* 


Li 


Hadoop 


在 安装 配置 Hadoop 集 群 前 ， 需 要 先 准 备 需要 的 机 器 。 按 照 下 面 的 顺序 配置 相关 机 器 : 
1) 新 建 虚 拟 机 master， 安 装 Linux 系 统 (本 书 使 用 的 是 CentOS 6.764 位 ) ; 

2) 配置 固定 IP; 

3) 关闭 防火 墙 ; 

4) 安装 必要 软件 ; 

5) 克隆 master 到 slave1、slave2、slave3; 


6) 修改 slave1 ~ slave3 的 IP， 改 为 固定 |P。 


虚拟 机 参数 配置 如 下 。 

1) master: 1.5G ~ 2G 内 存 、20G 硬 盘 、NAT、1~ 2 核 

2) slave1~ slave3: 1G 内 存 、20G 硬 盘 、NAT、1 核 

eO 

V9 B 上 面 的 虚拟 机 参数 配置 只 是 参考 ， 可 以 根据 自身 机 器 的 实际 情况 进行 调整 。 


在 配置 好 Hadoop 集 群 所 需 机 器 后 ， 先 确认 下 集群 拓扑 ， 本 次 部 署 采 用 的 集群 拓扑 如 图 2-16 所 示 。 
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图 2-16 ”Hadoop 集 群 拓 扑 
CE 
Ves EE 如 文中 未 做 说 明 ， 则 所 有 操作 都 是 在 toot 用 户 下 执行 。 但 是 ， 在 生产 环节 ， 一 般 不 会 使 用 root 用 户 ， 这 点 需要 注意 。 


2.2.2 ”环境 配置 
1. 安 装 JDK 
(1) 文件 下 载 
到 www.oracle.com 网 站 上 下 载 自 己 系统 对 应 JDK 版 本 。 文 件 名 如 jdk-7u<version> -linux-x64.tar.gz， 注 意 下 载 64 位 的 版 本 。 
(2) 解压 文件 


把 下 载 下 来 的 文件 上 传 到 Linux 机 器 ， 并 解压 缩 到 某 个 路 径 下 ， 如 /usr/local 目 录 。 


mv jdk-7u«version»-linux-x64.tar.gz /usr/ local 
tar zxvf jdk-7u«version»-linux-x64.tar.gz 


(3) 配置 Java 环 境 变量 
编辑 /etc/profile 文 件 ， 在 未 尾 加 上 Java 配 置 ， 如 代码 清单 2-1 所 示 。 


代码 清单 2-1 _ Java 环境 变量 


#set Java environment 
JAVA HOME-/usr/local/jdkl.7.0 67 


PATH-$JAVA HOME/bin:$PATH 
CLASSPATH-.:$JAVA HOME/lib/dt.jar:$JAVA HOME/lib/tools.jar 


export CLASSPATH 
2. 配 置 ssh 无 密码 登录 
1) 生成 公 钥 和 私 钥 ， 执 行 ssh-keygen-t rsa， 接 着 按 3 次 Enter 键 即 可 ， 如 代码 清单 2-2 所 示 。 


代码 清单 2-2 ssh 无 密码 登录 配置 


[root@master opt]# ssh-keygen -t rsa 
Generating public/private rsa key pair. 
Enter file in which to save the key (/root/.ssh/id rsa): 
Created directory '/root/.ssh'. 

Enter passphrase (empty for no passphrase): 

Enter same passphrase again: 

Your identification has been saved in /root/.ssh/id rsa. 
Your public key has been saved in /root/.ssh/id rsa.pub. 
The key fingerprint is: u 
22:ec:£f0:b6:2b:dc:54:d6:4£:a8e:a0:a88:66:3d:55:84 root(master 
The key's randomart image is: 

*--[ RSA 2048]---- F 
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+.ohttp://www.hzcourse .com/resource/readBook?path=/openresources/teach ebook/uncompressed/16328/OEBPS/Text/.. © | 


在 ~/.ssh 目 录 生 成 两 个 文件 ，id_rsa 为 私 铀 ，id_rsa.pub 为 公 钥 。 
2) 设置 hosts 文 件 。 在 /etc/hosts 文 件 中 配置 IP 与 HOSTNAME 的 映射 (1P 根 据 自 己 机 器 情况 设置 ) ， 如 代码 清单 2-3 所 示 。 


代码 清单 2-3 ”hosts 文件 配置 


192.168.0.130 master.centos.com master 
192.168.0.131 slavel.centos.com slavel 
192.168.0.132 slave2.centos.com slave2 
192.168.0.133 slave3.centos.com slave3 


3) 导入 公 钥 到 认证 文件 ， 执 行 ssh-copy-id 命 令 ， 如 代码 清单 2-4 所 示 。 


代码 清单 2-4 ”导入 公 钥 


[root@centos67 opt]# ssh-copy-id -i /root/.ssh/id rsa.pub master 

The authenticity of host 'master (192.168.0.130)' can't be established. 
RSA key fingerprint is 09:7a:e4:ad:28:ce:ac:b6:0f:ea:99:82:fa:62:25:96. 
Are you sure you want to continue connecting (yes/no)? yes 
Warning: Permanently added 'master,192.168.0.130' (RSA) to the list of known hosts. 
root8ümaster's password: 

Now try logging into the machine, with "ssh 'master'", and check in: 
.Ssh/authorized keys 

to make sure we haven't added extra keys that you weren't expecting 


接着 分 别 执行 : 


ssh-copy-id -i /root/.ssh/id rsa.pub slavel 
ssh-copy-id -i /root/.ssh/id rsa.pub slave2 
ssh-copy-id -i /root/.ssh/id rsa.pub slave3 


即 可 导入 公 钥 到 其 他 所 有 子 节点 。 


4) 验证 。 打 开 终 端 ， 直 接 输入 ssh master, ssh slave1、ssh slave2, ssh slave3， 如 果 可 直接 登录 ， 而 不 需要 输入 密码 ， 则 ssh 无 密码 登录 配置 成 功 。 


[root(master ~]# ssh master 
Last login: Tue Nov 3 18:39:41 2015 from 192.168.0.1 


3. 配 置 NTP 
配置 NTP 主 要 是 为 了 进行 集群 间 的 时 间 同步 ， 需 要 注意 在 master、slave1、slave2、slave3 节 点 分 别 执行 “yum install ntp" ， 即 可 安装 该 软件 。 
假设 将 Master 节 点 作为 NTP 服 务 主 节点 ， 那 么 其 配置 (修改 /etc/ntp.conf 文 件 ) 如 代码 清单 2-5 所 示 。 


代码 清单 2-5 NTP 主 节点 配置 


# 注 释 掉 server 开 头 的 行 ， 并 添加 

restrict 192.168.0.0 mask 255.255.255.0 nomodify notrap 
server 127.127.1.0 

fudge 127.127.1.0 stratum 10 


在 slave1~slave3 配 置 NTP， 同 样 修改 /etc/ntp.conf 文 件 ， 内 容 如 代码 清单 2-6 所 示 。 


代码 清单 2-6 ”NTP 从 节点 配置 


HER server AHIT, HNN 


server master 


在 master、slave1、slave2、slave3 节 点 执行 “service ntpd start&chkconfig ntpd on”， 即 可 启动 并 永久 启动 NTP 服 务 。 
4. 配 置 Hadoop 集 群 


上 传 Hadoop 安 装 包 到 master 机 器 ， 并 解压 缩 到 /usr/local 目 录 ， 使 用 代码 : 


tar -zxf hadoop-2.6.0.tar.gz -C /usr/local 


Hadoop 配 置 涉及 的 配置 文件 有 以 下 7 个 : 


: $SHADOOP HOME /etc/hadoop/hadoop-env.sh 


: SHADOOP HOME /etc/hadoop/yarn-env.sh 


: $SHADOOP HOME /etc/hadoop/slaves 


: SHADOOP HOME /etc/hadoop/cote-site.xml 


: SHADOOP HOME /etc/hadoop/hdfs-site.xml 


: $SHADOOP HOME /etc/hadoop/mapted-site.xml 


: $SHADOOP HOME /etc/hadoop/yarn-site.xml 

各 个 配置 文件 修改 如 下 所 示 。 

1) 配置 文件 1: hadoop-env.sh。 

该 文件 是 Hadoop 运 行 基 本 环境 的 配置 ， 需 要 修改 为 JDK 的 实际 位 置 。 故 在 该 文件 中 修改 JAVA_HOME 值 为 本 机 安装 位 置 ， 如 代码 清单 2-7 所 示 。 


代码 清单 2-7 hadoop-env.sh 配 置 


# some Java parameters 
export JAVA HOME-/usr/local/jdk1.7.0 67 


2) 配置 文件 2: yarn-env.sh, 
该 文件 是 YARN 框 架 运行 环境 的 配置 ， 同 样 需要 修改 Java 所 在 位 置 。 在 该 文件 中 修改 JAVA_HOME 值 为 本 机 安装 位 置 ， 如 代码 清单 2-8 所 示 。 


代码 清单 2-8 yarn-env.sh 配 置 


# some Java parameters 
export JAVA HOME-/usr/local/jdk1.7.0 67 


3) 配置 文件 3: slaves, 
该 文件 里 面 保存 所 有 slave 节 点 的 信息 ， 如 代码 清单 2-9 所 示 。 


代码 清单 2-9 slaves 配 置 


lavel 
lave2 
slave3 


[OMM C! 


4) 配置 文件 4: core-site.xml， 配 置 内 容 如 代码 清单 2-10 所 示 。 


代码 清单 2-10 ”core-site.xm| 配 置 


«configuration» 
«property» 
«name»fs.defaultFS«/name» 
«value»hdfs://master:8020«/value» 
</property> 
<property> 
<name>hadoop. tmp.dir«/name» 
<value>/var/log/hadoop/tmp</value> 
</property> 
</configuration> 


这 个 是 Hadoop 的 核心 配置 文件 ， 这 里 需要 配置 两 个 属性 : fs.defaultFS 配 置 了 Hadoop 的 HDFS 系 统 的 命名 ， 位 置 为 主机 的 8020 端 口 ， 这 里 需要 注意 替换 hdfs: //master: 8020， 中 的 斜体 master， 
字 


该 名 字 为 NameNode 所 在 机 器 的 机 器 名 ; hadoop.tmp.dir 配 置 了 Hadoop 的 临时 文件 的 位 置 。 
5) 配置 文件 5: hdfs-site.xml， 配 置 内 容 如 代码 清单 2-11 所 示 。 


代码 清单 2-11 hdfs-site.xml 丁 置 


<configuration> 
<property> 
«name»dfs.namenode.name.dir«/name» 
«value»file:///data/hadoop/hdfs/name«/value» 
</property> 
<property> 
«name»dfs.datanode.data.dir«/name» 
«value»file:///data/hadoop/hdfs/data«/value» 
</property> 
<property> 
<name>dfs .namenode . secondary .http-address</name> 
«value»master:50090«/value» 
</property> 
<property> 
<name>dfs.replication</name> 
<value>3</value> 
</property> 
</configuration> 


这 个 是 HDFS 相 关 的 配置 文件 ，dfs.namenode.name.dir 和 dfs.datanode.data.dir 分 别 指定 了 NameNode 元 数据 和 DataNode 数 据 存储 位 置 ; dfs.namenode.secondary.http-address 配 置 的 是 
SecondaryNameNode 的 地 址 ， 同 样 需要 注意 修改 “master” 为 实际 Secondary-NameNode 地 址 ; dfs.replication 配 置 了 文件 块 的 副本 数 ， 默 认 就 是 3 个 ， 所 以 这 里 也 可 以 不 配置 。 


6) 配置 文件 6: mapred-site.xml， 配 置 内 容 如 代码 清单 2-12 所 示 。 


代码 清单 2-12 mapred-site.xml 配 置 


«configuration» 

«property» 
«name»mapreduce.framework.name«/name» 
«value»yarnc/value» 

</property> 

«!-- jobhistory properties --> 

«property» 
«name»mapreduce.jobhistory.address«/name» 
«value»master:10020«/value» 

</property> 

<property> 
«name»mapreduce.jobhistory.webapp.address«/name» 


«value»master:19888«/value» 
</property> 
</configuration> 


这 个 是 MapReduce 相 关 的 配置 ， 由 于 Hadoop2.x 使 用 了 YARN 框 架 ， 所 以 必须 在 ma-preduce.framework.name 属 性 下 配置 yarn。mapreduce.jobhistory.address 和 mapreduce.job- 
history.webapp.address 是 与 JobHistoryServer 相 关 的 配置 ， 即 运行 MapReduce 任 务 的 日 志 相 关 服 务 ， 这 里 同样 需要 注意 修改 “master” 为 实际 服务 所 在 机 器 的 机 器 名 。 


7) 配置 文件 7: yarn-site.xml， 配 置 内 容 如 代码 清单 2-13 所 示 。 


代码 清单 2-13 ”yarn-site.xml 配 置 


<configuration> 
«!-- Site specific YARN configuration properties --> 
«property» 
«name»yarn.resourcemanager.hostname«/name» 
«value»master«/value» 
</property> 
<property> 
<name>yarn.resourcemanager .address</name> 
<value>${yarn.resourcemanager .hostname} :8032</value> 
</property> 
<property> 
<name>yarn.resourcemanager .scheduler .address</name> 
<value>$ {yarn.resourcemanager.hostname} :8030</value> 
</property> 
<property> 
<name>yarn.resourcemanager .webapp.address</name> 
<value>$ {yarn.resourcemanager.hostname}:8088</value> 
</property> 
<property> 
<name>yarn.resourcemanager .webapp.https.address</name> 
<value>$ {yarn.resourcemanager.hostname}:8090</value> 
</property> 
<property> 
«name»yarn.resourcemanager.resource-tracker.address«/name» 
«value»$[(yarn.resourcemanager.hostname]:8031«/value» 
</property> 
<property> 
<name>yarn.resourcemanager .admin .address</name> 
<value>${yarn.resourcemanager .hostname} :8033</value> 
</property> 
<property> 
«name»yarn.nodemanager.local-dirs«/name» 
«value»/data/hadoop/yarn/local«/value» 
</property> 
<property> 
<name>yarn.log-aggregation-enable</name> 
<value>true</value> 
</property> 
<property> 
«name»yarn.nodemanager.remote-app-log-dir«/name» 
«value»/data/tmp/logs«/value» 
</property> 
<property> 
«name»yarn.log.server.url«/name» 
«value»http://master:19888/jobhistory/logs/«/value» 
«description»URL for job history server«/description» 
</property> 
<property> 
«name»yarn.nodemanager.vmem-check-enabled«/name» 
«value»false«/value» 
</property> 
<property> 
<name>yarn.nodemanager .aux-services</name> 
«value»mapreduce shuffle</value> 
</property> 
<property> 
«name»yarn.nodemanager.aux-services.mapreduce.shuffle.class«/name» 
«value»org.apache.hadoop.mapred.ShuffleHandler«/value» 
</property> 
</configuration> 


该 文件 为 YARN 框 架 的 配置 ， 在 最 开始 命名 了 一 个 名 为 yarn.resourcemanager.hostname 的 变量 ， 这 样 在 后 面 YARN 的 相关 配置 中 就 可 以 直接 引用 该 变量 了 。 其 他 配置 保持 不 变 即 可 。 
将 配置 好 的 Hadoop 复 制 到 其 他 节点 ， 直 接 执 行 如 代码 清单 2-14 所 示 命 令 即 可 (注意 ， 本 文 使 用 的 从 节点 名 字 是 slave1、slave2、slave3， 读 者 可 根据 自己 机 器 实际 情况 修改 ) 。 


代码 清单 2-14 ”拷贝 Hadoop 安 装 包 到 其 他 子 节点 


scp -r /usr/local/hadoop-2.6.0/ slavel:/usr/local/ 
scp -r /usr/local/hadoop-2.6.0/ slave2:/usr/local/ 
scp -r /usr/local/hadoop-2.6.0/ slave3:/usr/local/ 


5. 格 式 化 NameNode 
做 完 Hadoop 的 所 有 配置 后 ， 即 可 执行 格式 化 NameNode 操 作 。 该 操作 会 在 NameNode 所 在 机 器 初始 化 一 些 HDFS 的 相关 配置 ， 其 命令 如 代码 清单 2-15 所 示 。 


代码 清单 2-15 ”格式 化 NameNode 


SHADOOP HOME/bin/hdfs namenode -format 


若 出 现 “Sstorage directory/data/hadoop/hdfs/name has been successsully formatted” 的 提示 ， 则 格式 化 成 功 (注意 ，/data/hadoop/hdfs/name 目 录 就 是 前 面 配置 的 


dfs.namenode.name.dir 的 值 ) 。 


2.2.3 ”集群 启动 关闭 与 监控 


启动 集群 ， 只 需要 在 master 节 点 (NameNode 服 务 所 在 节点 ) 直接 进入 Hadoop 安 装 目 录 ， 分别 执行 如 代码 清单 2-16 所 示 的 命令 即 可 。 


代码 清单 2-16 启动 Hadoop 集 群 


cd $HADOOP HOME // 进入 Hadoop 安 装 目 录 
bin/start-dfs.sh // 启动 HDFS 相 关 服 务 
bin/start-yarn.sh // 启动 YARN 相 关 服 务 
bin/mr-jobhistory-daemon.sh start historyserver // 启动 日 志 相 关 服 务 


关闭 集群 ， 同 样 只 需要 在 master 节 点 (NameNode 服 务 所 在 节点 ) 直接 进入 Hadoop 安 装 目 录 ， 分 别 执行 如 代码 清单 2-17 所 示 的 命令 即 可 (注意 关闭 顺序 ) 。 


代码 清单 2-17 关闭 Hadoop 集 群 


cd $HADOOP HOME // 进入 Hadoop 安 装 目录 

bin/stop-yarn.sh // 关闭 YARN 相 关 服 务 

bin/stop-dfs.sh // 关闭 HDFS 相 关 服 务 

bin/mr-jobhistory-daemon.sh stop historyserver // 关闭 日 志 相 关 服 务 


Hadoop 集 群 相关 服务 监控 如 表 2-2 所 示 ， 其 监控 示意 分 别 如 图 2-17、 图 2-18、 图 2-19 所 示 。 


表 2-2 Hadoop 集群 监控 相关 端口 


ResourceManager 8088 
MapReduce JobHistory Server 19888 


O master:50070/dfshealth.html£tab-overview 


Hadoop Overview Datanodes Snapshot Startup Progress Utilities 


Overview 'master:8020' (active) 


Mon Aug 22 11:43:57 CST 2016 


2.0.0, re3496499ecb8d220fba99dc5ed4c99c8f9e33bb1 


BP-85563469-192. 168. 0. 130—1469542213486 


Security is off. 
Safemode is off. 
432 files and directories, 191 blocks = 623 total filesystem object(s). 


Heap Memory used 34.53 MB of 54.21 MB Heap Memory. Max Heap Memory is 966.69 MB. 


Non Heap Memory used 31.93 MB of 32.56 MB Commited Non Heap Memory. Max Non Heap Memory is 130 MB. 
图 2-17 HDFSHjz 
2.24 动手 实践 : 一 键 式 Hadoop 集 群 启动 关闭 


在 使 用 Hadoop 的 过 程 中 ， 如 果 每 次 启动 Hadoop 集 群 都 需要 分 别 执行 3 次 命令 才能 启动 集群 ， 那 么 每 次 集群 启动 或 天 闭 都 将 很 繁琐 。 为 了 减少 这 种 操作 ， 可 以 编写 一 个 脚本 来 控制 Hadoop 集 群 的 启动 
与 关闭 ， 所 以 本 实验 就 是 完成 这 个 功能 。 


iy m 


C | O master.8088/cluster 
Logged in as: dr.who 


All Applications 


- Cluster Cluster Metrics 
About Apps Apps cps Lpps Containers Wenory  Menory Memory VCores | VCores VCorez Active Daconmissioned Lost  Unkealtky Rebooted 
Nodes Submitted  Fending Ruming  Conpleted Running Used Total Reserved Used Total | Reserved Nodes Nodes Nodes Nodes Nodes 
Applications ü 0 0 0 0 2 ll — - H H = a 2 一 2 
^ 

NEW SAVING Show 20 Y entries | Search: 

ACCEPTED > Name Ê Application Type S Queve € StertTime ^2 FinishTine ê State ĉ FinalStatius 2 Progress $ Tracking UI $ 

ENTE No data available in table 

FAILED Showing O to O of O entries 

KILLED 


Scheduler 


» Tools 
图 2-18 YARN 监 控 
外 >r 本 中 三 


Logged in as: dr. who 


JobHistory 


* Application | Retired Jobs 
About 3 
Jobs 


Show 20 Y eniries Search: 


Maps Total Maps Keduces Keduces 


^ 


Submit Tine  3tart lime Finish Time Job ID $ ^ ES 1 Wee 
^ - - y $ Completed $ Total © Completed 


A 


» Tools 
jser Queue 


ubmit imi 


Showing Û to O of Ô entries 


图 2-19 日 志 监 控 


1) 学 习 Linux shell 命 令 相 关 代码 ; 
2) 了 解 Hadoop 集 群 启动 关闭 流程 ; 
3) 编写 集群 启动 关闭 shell 脚 本 ; 


* 


4) 测试 运行 。 


2.2.5 “动手 实践 : Hadoop IDE 配 置 


在 书 中 的 后 续 内 容 中 ， 会 针对 Hadoop 相 关 MapReduce 程 序 进 行 讲解 以 及 开发 ， 一 个 好 的 程序 讲解 及 代码 编写 环境 ， 将 会 非常 有 利于 对 应 的 分 析 ， 所 以 本 节 就 对 Hadoop 代 码 分 析 与 开发 环境 配置 做 讲 
解 。 


1) 下 载 Eclipse 安装 包 以 及 Hadoop eclipse 揪 件 hadoop-eclipse-plugin-2.6.0.jar (该 插件 在 hadoop/ 目 录 ) ， 下 载 包 如 图 2-20 所 示 。 


-x86 64.zip 
.6,0,jar 


eclipse-jee-mars-1 -win. 


" 
x 


se-plugin- 
piug 


图 2-20 Eclipse% Hadoop Eclipse 插件 


hadoop-ecll 


2) 把 hadoop-eclipse-plugin-2.6.0,jar 放 到 eclipse 的 安装 目录 dropins 下 ， 如 图 2-21 所 示 。 


rams J eclipse > dropins 


e^ 


P^ 


L| hadoop-eclipse-plugin-2.6.0,Jar '015/12/26 23:02 Executable 


图 2-21 Hadoop Eclipse 插件 安装 目录 
3) 打开 eclipse， 依 次 选择 Window-> Perspective-» Open Perspective-> Other->Map/Reduce， 如 图 2-22、 图 2-23 所 示 。 
Run Window | Help 
qe New Window 
Editor 
Hide Toolbar 


Show View 
Perspective : Open Perspective Other... 


Navigation | Customize Perspective... 
Save Perspective As.. 
Reset Perspective... 


Preferences 


Close Perspective 


Close All Perspectives 


图 2-22 Eclipse 打开 Hadoop Eclipse 插件 1 


-| MB. Open Perspective E X 


las; Git 

& Java 

tr Java Browsing 

19 Java EE (default) 

feJ Java Type Hierarchy 
& JavaScript 

€ JPA 

ff  Map/Reduce 

D Planning 

= Plug-in Development 
HB Remote System Explorer 
E Resource 

&" Team Synchronizing 
d Web 

X XML 


OK Cancel 


图 2-23 Eclipse 打开 Hadoop Eclipse 插件 2 
选中 后 ， 单 击 OK 按钮 ， 重 启 Eclipse。 


4) 单 击 图 2-24 中 箭头 所 指 小 象 图 标 ， 即 可 添加 集群 。 


(t? Map/Reduce Locations 又 


Location Master node Status 


图 2-24 Eclipse P Hadoop 4& 7f 


5) 配置 参数 ， 如 图 2-25 所 示 。 


General Advanced parameters 


Map/Reduce(V2) Master DFS Master 


Hast gin mmis 


Host | node1 


SOCKS proxy 
[_] Enable SOCKS proxy 
Host: | host 


Port: | 1080 


图 2-25 Eclipse 中 Hadoop 集 群 参 数 


6) 查看 配置 的 集群 ， 如 图 2-26、 图 2-27 所 示 。 


oblems Tasks @ Javadoc WW Map/Reduce Locations 23 


Master node Status 


Location 


"n T1 nodel 


图 2-26 Eclipse 中 配置 好 的 Hadoop 集 群 


v =| DFS Locations 
v "P TI 
v (— (06) 
E> data (1) 
hbase (7) 


spark-history-log (0) 


spark-log (14) 
tmp (3) 


user (3) 


图 2-27 了 clipse 导 航 中 连接 Hadoop 集 群 
思考 : 
1) 为 什么 要 配置 Hadoop IDE， 不 配置 可 以 吗 ? 还 有 其 他 的 配置 方式 吗 ? 


2) 如 果 有 其 他 方式 配置 Hadoop IDE， 会 是 什么 呢 ? 


2.3 ”Hadoop 集 群 命令 

一 般 操作 Hadoop 集 群 都 是 使 用 相关 的 Hadoop 命 令 ， 比 如 文件 上 传 、 下 载 、 删 除 ， 文 件 夹 新 建 、 删 除 、 拷 贝 等 ; 又 或 者 提交 MapReduce 任 务 并 执行 、 查 看 MapReduce 任 务 执行 状态 等 。 那 么 
Hadoop 集 群 包含 的 相关 命令 有 哪些 呢 ? 

大 多 数 Hadoop 集 群 的 相关 命令 类 别 如 表 2-3 所 示 。 


表 2-3 Hadoop 集 群 命令 类 别 


HDFS hadoop fs/hdfs dfs /| 运行 一 个 Hadoop 文 持 的 文件 系 | hdfs dfs mkdir 
hadoop dfs 统 命 令 


 NancNode JERE 
HDFS 文件 检查 工具 hdfs fsck /user/root 


HDFS 
balancer 集群 负载 均衡 工具 类 
执行 datanode 相关 命令 
运行 一 个 HDFS 的 管理 员 客户 端 


执行 namenode 相关 命令 
secondarynamenode 执行 secondarynamenode 相关 
命令 
MapReduce 执行 一 个 管道 任务 


archive 创建 一 个 Hadoop 的 压缩 文件 


historyserver 局 动 JobHistoryServer 


启动 一 个 MapReduce hsadmin 


hsadmin 


客户 病 执 行 JobHistoryServer 相关 


命令 


执行 一 个 jar 文件 


YARN j 


e 
m: 


打印 应 用 输出 或 关闭 任 务 


application 


node 打印 市 点 信息 
I 
classpath 打印 任务 运行 时 相关 jar 包 路 径 
resourcemanager 执行 resourcemanager 相关 操作 
proxyserver 局 动 网 页 代理 服务 各 
rmadmin 启动 Resourcemanager 管理 员 客 
BE: 


设置 / 获取 后 台 进 程 日 志 级 别 


daemonlog 


下 面 针 对 每 种 集群 命令 ， 介 绍 其 中 常用 的 命令 ， 为 后 面 的 操作 打下 基础 。 


2.3.1 HDFS 常 用 命令 hdfs dfs 


在 讲解 这 个 命令 前 ， 先 对 hdfs dfs、hadoop fs、hadoop dfs 这 3 个 命令 进行 区 分 。 


- hadoop fs: 通用 的 文件 系统 命令 ， 针 对 任何 系统 ， 比 如 本 地 文件 、HDFS 文 件 、HEFTP 文 件 、S3 文 件 系 统 等 。 


: hadoop dfs: 特定 针对 HDEFS 的 文件 系统 的 相关 操作 ， 但 是 已 经 不 推荐 使 用 。 


- hdfs dfs: 与 hadoop df 类 似 ， 同 样 是 针对 HDFS 文 件 系统 的 操作 ， 官 方 推荐 使 用 。 


YI 
SER 


hdfs namenode -rollback 


hdfs dfsadmin -report 


hdfs namenode -format-clusterid clus- 


terId 


hdfs secondarynamenode check -point 


mapred pipes -program executable 
mapred job —kill job —id 
mapred queue -list 


mapred classpath 


mapred historyserver 


mapred hsadmin —refreshAdminAcls 


yarn jar <jar> [mainClass] args: :: 
yarn application —list 
yarn node -list 


yarn logs-applicationld «application 


D» 


yarn classpath 
yarn version 


yarn resourcemanager —format-state- 


store 


yarn nodemanager 
yarn proxyserver 


yarn rmadmin —refreshNodes 


yarn daemonlog -setleve «host:port^ 


<name> «level» 


该 命令 的 操作 在 代码 清单 2-18 中 列 出 。 


代码 清单 2-18 hdfs dfs 命 令 


[root(master hadoop-2.6.0]# bin/hdfs dfs 
Usage: hadoop fs [generic options] 


|-createSnapsho 
[-deleteSnapsho 


«snapshotDir» [«snapshotName»|]] 
«snapshotDir» «snapshotName»] 


Ct cd 


[-df [-h] [«path» http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/16328/0EBPS/Text/...]] 

[-du [-s] [-h] «path» http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/16328/O0EBPS/Text/...] 

[-expunge] 

[-get [-p] [-ignoreCrc] [-crc] «src» http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/16328/O0EBPS/Text/... «localdst»] 
[-getfacl [-R] <path>] 

[-getfattr [-R] í(-n name | -d) [-e en] «path»] 

[-getmerge [-nl] «src» «localdst»] 


[-help [cmd http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/16328/0EBPS/Text/...]] 

[-1s [-d] [-h] [-R] [«path» http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/16328/O0EBPS/Text/...]] 

[-mkdir [-p] «path» http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/16328/OEBPS/Text/...] 

[-moveFromLocal «localsrc» http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/16328/O0EBPS/Text/... «dst»] 
[-moveToLocal «src» «localdst»] 

[-mv «src» http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/16328/OEBPS/Text/... «dst»] 

[-put [-f] [-p] [-1] «localsrc» http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/16328/OEBPS/Text/... «dst»] 
[-renameSnapshot «snapshotDir» «oldName» «newName»] 

[-rm [-f] [-r|l-R] [-skipTrash] «src» http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/16328/O0EBPS/Text/...] 
[-rmdir [--ignore-fail-on-non-empty] «dir» http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/16328/OEBPS/Text/...] 
[-setfacl [-R] [í-b|-k) í(-m|-x «acl spec») «path»]|[--set «acl spec» «path»]] 

[-setfattr (-n name [-v value] | -x name) «path»] 

[-setrep [-R] [-w] «rep» «path» http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/16328/OEBPS/Text/...] 
[-stat [format] «path» http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/16328/OEBPS/Text/...] 

[-tail [-f] <file>] 

[-test -[defsz] «path»] 

-text [-ignoreCrc] «src» http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/16328/0EBPS/Text/...] 


[-touchz «path» http: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/16328/O0EBPS/Text/...] 
[-usage [cmd http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/16328/O0EBPS/Text/...]] 


[-appendToFile «localsrc» http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/16328/OEBPS/Text/... «dst»] 

[-cat [-ignoreCrc] «src» http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/16328/O0EBPS/Text/...] 

[-checksum «src» http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/16328/OEBPS/Text/...] 

[-chgrp [-R] GROUP PATHhttp://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/16328/OEBPS/Text/...] 

[-chmod [-R] «MODE[,MODE]http: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/16328/O0EBPS/Text/... | OCTALMODE» PATHhttp://www.hzcourse.com/re 
[-chown [-R] [OWNER] [: [GROUP]] PATHhttp://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/16328/OEBPS/Text/...] 

[-copyFromLocal [-f] [-p] [-1] «localsrc» http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/16328/OEBPS/Text/... «dst»] 

[-copyToLocal [-p] [-ignoreCrc] [-crc] «src» http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/16328/0EBPS/Text/... «localdst»] 

[-count [-q] [-h] «path» http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/16328/OEBPS/Text/... 

[-cp [-f] [-p | -p[topax]] «src» http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/16328/OEBPS/Text/... «dst»] 


其 中 斜体 加 粗 的 命令 是 比较 常用 的 ， 一 般 可 以 根据 命令 名 称 推断 出 该 命令 的 功能 及 用 法 。 同 时 ， 也 可 以 使 用 -usage 命 令 查看 某 个 具体 名 ， 如 代码 清单 2-19 所 示 。 


代码 清单 2-19 hdfs dfs-usage 用 法 


[root&master hadoop-2.6.0]4$ bin/hdfs dfs -usage put 


Usage: hadoop fs [generic options] -put [-f] [-p] [-1] «localsrc» http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/16328/O0EBPS/Text/... 


这 里 ， 针 对 常用 的 命令 做 简单 介绍 ， 如 表 2-4 所 示 。 


表 2-4 hdfs dfs 常 用 命令 用 法 


mo ẹ 示 9| 


copyFromLocal hdfs dfs -copyFromLocal /root/ 
test.txt /user/root/test.txt 


moveFromLocal hdfs dfs »moveFromLocal /root/ 


test.txt /user/root/test.txt 


put hdfs dfs —put /root/test.txt /user/ 
root/test.txt 


copyToLocal hdfs dfs —copyToLocal /user/root/ 
test.txt /root/test.txt 


moveToLocal hdfs dfs -moveToLocal /user/root/ 
test.txt /root/test.txt 


get hdfs dfs —get/user/root/test.txt / 
root/test.txt 


ls hdfs dfs -ls —R/ 


rm hdfs dfs —rm /user/root/test.txt 


mkdir hdfs dfs -mkdir -p /user/root/abc 


2.3. ”动手 实践 : hdfs dfs 命 令 实战 


在 了 解 了 一 些 Hadoop HDFS 相 关 命 令 后 ， 即 可 进行 实验 ， 加 深 对 该 类 命令 的 认识 。 


解 E 
从 Linux 本 地 文件 系统 找 由 到 HDFS 文件 系统 ，/ 


root/test.txt 指 本 地 文件 系统 ，/user/root/test.txt 指 HDFS 
文件 系统 文件 


从 HDFS 文件 系统 拷贝 到 Linux 本 地 文件 系统 ，/ 
root/test.txt 指 本 地 文件 系统 ，/user/root/test.txt 指 HDFS 
文件 系统 文件 


列举 HDFS 中 根 目 录 下 面 的 所 有 日 录 ，-R 选项 表示 
3& I 


在 HDFS 创建 /user/root/abc，-p 表示 递归 创建 目录 


删除 HDFS 上 的 /user/root/test.txt 文件 


<C 


1) root 账 号 登录 master 机 器 终端 ; 

2) 上 传 /root/anaconda-ks.cfg 文 件 到 HDFS 的 /user/root/ 目 录 下 ; 

3) 复制 或 移动 HDFS 中 /user/root/anaconda-ks.cfg 到 /user/root/tmp/ 目 录 下 ; 
4) 下 载 HDFS 中 的 /user/root/tmp/anaconda-ks.cfg 文 件 到 linux/tmp 目 录 下 ; 
5) 删除 /user/root/tmp 目 录 。 

思考 : 

1) 如 果 使 用 的 不 是 root 账 号 登录 ， 那 么 可 以 操作 吗 ? 如 何 操作 ? 


2) 删除 /user/root/tmp 目 录 可 以 使 用 哪些 命令 ? 不 同 命令 有 什么 区 别 ? 


2.3.3 MapReduce 常 用 命令 mapred job 


MapReduce 常 用 命令 就 是 job 相关 命令 ， 该 命令 相关 参数 及 描述 如 代码 清单 2-20 所 示 。 


代码 清单 2-20 mapred job 命令 


[root(master hadoop-2.6.0]4 bin/mapred job 
Usage: CLI «command» «args» 

[-submit «job-file»?] 

[-status «job-id»] 

[-counter «job-id» «group-name» «counter-name»] 
[-kill «job-id»] 
[-set-priority «job-id» «priority»]. Valid values for priorities are: VERY HIGH HIGH NORMAL LOW VERY LOW 
[-events «job-id» «from-event-4» <#-of-events>] 
[-history «jobHistoryFile»] 

[-list [all]] 

[-list-active-trackers] 
[-list-blacklisted-trackers] 

[-list-attempt-ids «job-id» «task-type» «task-state»]. Valid values for «task-type» are REDUCE MAP. Valid values for «task-state» are running, completed 
[-kill-task «task-attempt-id»] 

[-fail-task «task-attempt-id»] 

[-logs «job-id» «task-attempt-id»] 


Io d do): Pod !g 
2 die ica 
[0] 


其 中 比较 常用 的 描述 如 下 。 
: -list: 列 出 所 有 任务 信息 ; 
kl: 杀 死 执行 任务 id 的 任务 ， 当 知道 提交 的 任务 有 问题 的 时 候 ， 可 以 运行 此 命令 ， 直 接 关闭 对 应 的 任务 ; 


dog: 查看 某 个 任务 的 日 志 ， 用 得 相对 较 少 ， 如 果 要 查看 日 志 ， 可 以 首选 浏览 器 查看 ， 其 显示 格式 比较 好 。 


2.3.4 YARN 常 用 命令 yarn jar 


YARN 常 用 命令 就 是 yarn jar 命 令 ， 即 提交 一 个 MapReduce 任 务 的 命令 。 使 用 该 命令 可 以 直接 运行 一 个 MapReduce 任 务 。 该 命令 描述 如 代码 清单 2-21 所 示 。 


代码 清单 2-21 yarn jar 命 令 


[root@master hadoop-2.6.0]4 bin/yarn jar 
RunJar jarFile [mainClass] argshttp://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/16328/OEBPS/Text/... 


从 上 面 的 描述 中 可 以 看 出 ， 其 实 调用 yarn jar 命 令 还 是 比较 简单 的 ， 只 需要 给 出 要 执行 的 jar 文 件 路 径 、 可 选 的 主 类 ， 以 及 主 类 对 应 的 输入 参数 即 可 。 


2.3.5 ”动手 实践 : 运行 MapReduce 任 务 


1) 上 传 /root/anaconda-ks.cfg 文 件 到 HDFS 文 件 系 统 /user/root 目 录 ; 

2) 使 用 yarn jar 的 方式 提交 任务 ， 其 中 ， 

.jaf 文件 : $HADOOP_HOME /share/hadoop/mapreduce/hadoop-mapreduce-examples-2.6.0.jar 
- 主 类 为 : wordcount 

ADAR: /user/root/anaconda-ks.cfg 

- 输出 参数 <out>: /user/root/wc, 00 

3) 查看 输出 运行 结果 ; 

4) 使 用 mapred job 命令 查看 任务 状态 及 对 应 日 志 输 出 ; 

5) 再 次 执行 任务 ， 查 看 输出 信息 ; 

6) 产生 一 个 大 数据 文件 ， 上 传 到 HDFS， 使 用 该 大 数据 文件 执行 单词 计数 MapReduce 任 务 ， 在 执行 到 一 半 后 ， 使 用 mapred job 的 Kill 命令， 杀 死 该 任务 ， 查 看 相关 输出 信息 。 
思考 : 

1) 执行 第 5 步 的 时 候 会 报错 吗 ? 报 什么 错 ? 怎么 解决 ? 


2) 可 以 在 Hadoop IDE 中 直接 提交 Job 吗 ? 如 果 可 以 怎么 做 ? 如 果 不 可 以 ， 为 什么 ? 


24 Hadoop 编 程 开发 


Hadoop 框 架 最 核心 的 设计 就 是 HDFS 和 MapReduce。HDFS 为 海量 的 数据 提供 了 存储 ， 则 MapReduce 为 海量 的 数据 提供 了 计算 。 本 节 就 MapReduce 开 发 相关 内 容 进行 分 析 ， 包 括 HDFS Java API 操 
作 、MapReduce 原 理 、MapReduce 相 关 流 程 组 件 配置 及 编程 等 。 最 后 将 给 出 两 个 算法 : Kmeans 算 法 、Tf-idf 算 法 的 动手 实践 ， 加 深 对 MapReduce 编 程 的 认识 和 理解 。 


2.4.1 


HDFS Java API 操 作 


Hadoop 中 关于 文件 操作 类 基本 上 是 在 org.apache.hadoop.fs 包 中 ， 这 些 API 能 够 支持 的 操作 有 : 打开 文件 ， 读 写 文 件 ， 删 除 文件 ， 创 建文 件 、 文 件 夹 ， 判 断 是 文件 或 文件 夹 ， 判 断 文 件 或 文件 夹 是 否 


存在 等 。 


Hadoop 类 库 中 最 终 面 向 用 户 提供 的 接口 类 是 Filesystem ， 这 个 类 是 个 抽象 类 ， 


” get(URI uri, Configuration conf) : FileSystem - 


能 通过 类 的 get 方 法 得 到 其 实例 。get 方 法 有 几 个 重 载 版 本 ， 如 图 2-28 所 示 。 


” get(Configuration conf) : FileSystem - FileSystem 


& get(URI uri, Configuration conf, String user) : 


比较 常用 的 是 第 一 个 ， 即 灰色 背景 的 方法 。 


FileSystem 针 对 HDFS 相 关 操 作 的 API 如 表 2-5 所 示 。 


AP| 


create(Path) 


copyFromLocalFile(Path,Path) 


moveFrombLocalFile(Path,Path) 


图 2-28 ”FileSystem 实 例 获取 方法 


表 2-5 FileSystem API 


np 
CC 


功 
创建 一 个 文件 
复制 本 地 文件 到 HDFS 
移动 本 地 文件 到 HDFS， 同 时 删除 本 地 文件 


delete(Path,boolean) 递归 删除 茶 个 文件 夹 或 东 个 文件 
isDirectory(Path) 查看 某 个 路 径 是 目录 还 是 文件 
exist(Path) 查看 某 个 路 径 是 否 存 在 
listStatus(Path) 列 出 某 个 路 径 下 所 有 的 文件 及 文件 夹 
mkdirs(Path) 创建 目录 
open(Path) 打开 某 个 文件 
代码 清单 2-22， 是 Filesystem API 的 一 个 简单 示例 。 该 代码 首先 获取 Filesystem 的 一 个 实例 ， 然 后 调用 该 实例 的 lststatus 方 法 ， 获 取 所 有 根 目录 下 面 的 文件 或 文件 夹 (注意 这 里 获取 的 不 包含 递归 子 目 


录 ) ; 接着 ， 调 用 create 方 法 创建 一 个 新 文件 ， 并 写 入 “Hello World! " 


代码 清单 2-22 FileSystem API 示 例 


; 最 后 ， 读 取 刚 才 创建 的 文件 ， 并 把 创建 的 文件 内 容 打印 出 来 ; 关闭 Filesystem 实 例 。 


package demo; 


import java.io. 


import 
impor! 


O 


Exception; 


org.apache.hadoop.f 
org.apache.hadoop.f 
org.apache.hadoop.f 
org.apache.hadoop.f 


org.apache.hadoop.conf.Configura 
org.apache.hadoop.fs.FSDatalnputStream; 


.FSDataOutpu 


.FileSta 


CUS; 


.FileSys! 
.Path; 


lic class FileSystemAPIDemo { 


cem; 


tion; 


tStream; 


Set 
// 获取 HDFS FileSystem 实 例 


FileSystem fs = Fil 


// 列 出 根 目录 下 所 有 文件 及 文件 夹 


Path root = new Path ("hdi 


FileStatus[] 


£s://mas! 


eSystem.get (conf) ; 


System.out.println (child.getPath() 


) 


// 创建 文件 并 写 入 “HelloWorld! " 


Path newFile = new Path ("hdi 
if(fs.exists (newFile))í 
fs.delete(newFile, false); 


} 


FSDataOutputStream out = 


out.writeUTF ("Hello World!"); 


out.close(); 


// 读 取 文件 内 容 


FSDataInputStream in = 


String info = in.reaqdUTF(); 


lic static void main(String[] args) throws IOException { 

// 获取 Hadoop 默 认 配 置 

Configuration conf = new Configuration(); 

conf. ("fs.defaultFS", "hdfs://master:8020"); // 配置 HDFS 


ter:8020/"); 
children = fs.listStatus (root); 
for(FileStatus child :children)([í 


— 


.getName ()); 


£s://master:8020/user/fansy/new.txt"); 


// 判断 文件 是 否 存在 
// 如 果 存 在 ， 则 删除 文件 


fs .create (newFile); // 创建 文件 
// 写 入 \Hello World! " 


// 关闭 输出 流 


fs .open (newFile); // 打开 文件 


// 读 取 输入 流 


// 注意 路 径 需要 具有 写 权限 


System.out.println (info); // 打印 输出 
// 关闭 文件 系统 实例 


fs.close(); 


} 
} 


执行 完成 后 ， 在 HDFS 上 可 以 看 到 创建 的 文件 及 内 容 ， 如 图 2-29 所 示 。 


File: /user/fansy/new. txt 


Goto : /user/fansy 


Go back to dir listing 
Advanced view/download options 


Hello World! 


图 2-29  HDFS JavaAPI 示 例 代 码 运 行 结果 


2.4.2 MapReduce 原 理 


1. 通 俗 理解 MapReduce 原 理 
现在 你 接 到 一 个 任务 ， 给 你 10 本 长 篇 英文 小 说， 让 你 统计 这 10 本 书 中 每 一 个 单词 出 现 的 次 数 。 这 便 是 Hadoop 编 程 中 赫赫 有 名 的 HelloWorld 程 序 : 词 频 统 计 。 这 个 任务 的 结果 形式 如 表 2-6 所 示 。 


表 2-6 单词 计数 结果 


a,12300 
ai,62 
are,235 


zhe, 45000 


即 在 这 10 本 书 中 a 共 出 现 了 12300 次 ，ai 共 出 现 了 63 次 .…… 依 次 计算 出 每 一 个 单词 出 现 多 少 次 。 天 啊 ， 这 个 工作 必须 由 专业 人 士 做 呀 ， 自 己 做 的 话 还 不 标 死 呀 。 这 时 你 可 以 把 这 个 工作 外 包 给 一 支 职业 分 
布 式 运算 工程 队 做 。 


分 布 式 运算 工程 队 中 按 岗 位 有 Mapper、Mapper 助 理 Comb-iner、Mapper 助 理 InputFormat、Mapper 助 理 Patitioner、 运 输 负责 Shuffle、Reducer、Reducer 助 理 Sort、Reducer 助 理 
OutputFormat。 除 了 Combiner 是 非 必需 人 员外 ， 其 他 岗位 都 是 必需 的 。 下 面 描述 一 下 这 个 工程 队 是 怎么 做 这 项 工作 的 。 


首先 把 这 10 本 书 分 别 分 到 10 个 Mapper 手 中 。Mapper 助 理 InputFormat 负 责 从 书 中 读 取 记 录 ，Mapper 负 责 记 录 怎 么 解析 重新 组 织 成 新 的 格式 。 然 后 Mapper 把 自己 的 处 理 结果 排 好 序 后 放 到 书 旁 边 ， 
等 待 Shuffle 取 走 结果 。Shuffle 把 取 到 的 结果 送 给 Reducer 助 理 Sort， 由 Sort 负 责 把 所 有 Mapper 的 结果 排 好 序 ， 然 后 送 给 Reducer 来 进行 汇总 ， 以 得 到 最 终 的 结果 ; 最 后 ， 由 Reducer 助 理 Outputformat 
记录 到 规定 位 置 并 存档 。 


下 面 说 明 什 么 时 候 需要 Combiner。Maper 助 理 InputForormat 从 书 中 一 行 行 读 取 记 录 ， 给 到 Mapper，Mapper 从 Inputformat 的 记录 中 解析 出 一 个 个 单词 ， 并 进行 记录 。Mapper 处 理 的 结果 形 如 “a 
出 现 了 一 次 ，a 出 现 了 一 次 ，ai 出 现 了 一 次 .…zhe 出 现 了 一 次 ”。 工 作 一 段 时 间 后 发 现 负 责 搬 运 工 作 的 Suffle 有 点 吃不消 ， 这 时 就 用 到 Mapper 助 理 Combiner 了 。 由 Combiner 对 的 输出 结果 进行 短暂 的 汇 
总 ， 把 Mapper 的 结果 处 理 成 形 如 “书本 一 中 单词 a 共 出 现 1500 次 ，ai 出 现 了 14 次 ，are 出 现 了 80 次 .……” 这 样 Shuffle 的 压力 顿时 减轻 了 许多 。 


对 于 每 个 岗位 工程 队 都 是 有 默认 时 限 的。 但 如 果 默 认 时 限 不 能 满足 需求 ， 也 可 以 对 工作 量 进 行 自 定义 。 

上 面 的 过 程 描述 了 一 个 MapReduce 工 程 队 是 如 何 进行 配合 工作 的 。 这 个 过 程 与 MapReduce 分 布 式 运算 是 基本 对 应 的 。 理 解 了 上 面 的 过 程 也 就 大 概 理解 了 Hadoop 的 Map-Reduce 过 程 了 。 
2.MapReduce 过 程 解析 

MapReduce 过 程 可 以 解析 为 如 下 所 示 : 

1) 文件 在 HDFS 上 被 分 块 存储 ，DataNode 和 存储 实际 的 块 。 

2) 在 Map 阶 段 ， 针 对 每 个 文件 块 建立 一 个 map 任 务 ，map 任 务 直接 运行 在 DataNode 上 ， 即 移动 计算 ， 而 非 数据 ， 如 图 2-30 所 示 。 

3) 每 个 map 任 务 处 理 自己 的 文件 块 ， 然 后 输出 新 的 键 值 对 ， 如 图 2-31 所 示 。 

4) Map 输 出 的 键 值 对 经 过 shuffle/sort 阶 段 后 ， 相 同 key 的 记录 会 被 输送 到 同一 个 reducer 中 ， 同 时 键 是 排序 的 ， 值 被 放 入 一 个 列表 中 ， 如 图 2-32 所 示 。 


5) 每 个 reducer 处 理 从 map 输 送 过 来 的 键 值 对 ， 然 后 输出 新 的 键 值 对 ， 一 般 输出 到 HDFS 上 。 


ml r3 


DataNode/NodeManager DataNode/NodeManager 


DataNode/NodeManager DataNode/NodeManager 


图 2-30 ”数据 块 和 map 对 应 关系 


Date Node/NodeManager 


DataNode/NodeManager 


«key1, value» 
«key2, value» 
«key5, value» 
«key9, value» 


«key2, value» 
«key3, value» 
«key2, value» 
«key8, value» 
«key1, value» 


«key1, value» 
«key4, value» 
«key4, value» 
«key4, value» 
«key3, value» 


«key7, value» 
«key9, value» 


E]2-31 键 值 对 经 过 map 处 理 后 输出 


«key1, (value,value,value,value)» 


«key3, (value,value)» Output from the 


mappers after being 
shuffled and sorted is 
equal to the input of the 
reducers. 


«key5, (value,value)» 
«key6, (value,value,value)» 


NodeManager 


«key, value» 
«key, value» 


«key, value» 
«key, value» 
«key, value» 


«key, value» 


HDFS 


图 2-32  shuffle/sort/fereduce HER 


3. 单 词 计数 源码 解析 


DataNode/NodeManagei: 


«key4, value» 
«key2, value» 
«key9, value» 


Z | map7 


DatsNode/NodeManager 


«key5, value» 
«key6, value» 
«key2, value» 
«key6, value» 


«key6, value» 
«key1, value» 
«key9, value» 
«key9, value» 


«key2, (value,value,value,value,value)» 
«key4, (value,value,value,value)» 


«key7,(value)» 
«key8,(value)» 
«key9,(value,value,value,value,value)» 


NodeManager 


上 面 的 分 析 都 是 建立 在 理论 基础 上 的 ， 这 样 的 分 析 有 利于 编写 MapReduce 程 序 。 但 是 如 果 要 实际 编写 一 个 MapReduce 的 简单 程序 ， 还 是 不 够 的 ， 需 要 具体 看 示例 代码 。 这 里 直接 以 官网 提供 的 


example 代 码 中 的 WordCount 程 序 作为 示例 ， 进 行 代 码 级 别 分 析 和 说 明 。 


首先 ， 在 Hadoop 的 发 行 版 中 找到 对 应 的 代码 。 在 解压 下 载 的 Hadoop2.6.0 的 发 行 版 目录 中 ， 找 到 hadoop-2.6.0\share\hadoop\mapreduce\sources 目 录 ,， 该 目录 下 面 有 一 个 hadoop-mapreduce- 


examples-2.6.0-sources.jar 文 件 ， 使 用 压缩 文件 解压 缩 该 文件 ， 在 目录 org/apache/Hadoop/examples 中 即 可 找到 WordCount.java 文 件 ， 如 图 2-33 所 示 。 


| 国 hadoop-mapreduce-examples-2.6.0-sources.jar\org\apache\hadoop\examples 


[] terasort 


[f AggregateWordCountjava 

图 AggregateWordHistogramjava 
[if BaileyBorweinPlouffe.java 

[2f DBCountPageView.java 

[f ExampleDriver.java 
[f Grep.java 

[af Joinjava 

[f MultiFileWordCount.java 
G^ package.html 
[GB QuasiMonteCarlo java 
图 RandomTextWriter.java 
[f RandomWriter java 
[if SecondarySort java 
[f Sortjava 

[GB WordMean;java 
(2 WordMedian;java 
[2f WordStandardDeviation.java 


大 小 


庄 缩 后 大 小 


类 型 


JAVA 文件 
JAVA 文件 
JAVA 文件 
JAVA 文件 
JAVA 文件 
JAVA 文件 
JAVA 文件 
JAVA 文件 
Chrome HTML D... 
JAVA 文件 
JAVA 文件 
JAVA 文件 
JAVA 文件 
JAVA 文件 
JAVA 文件 
JAVA 文件 
JAVA 文件 
JAVA 文件 


图 2-33  hadoop-mapreduce-examples-2.6.0.jar P 49 WordCount.java 


找到 该 文件 后 ， 使 用 文本 软件 打开 ， 或 拷贝 到 Eclipse 工程 中 查看 ， 如 代码 清单 2-23 所 示 。 


代码 清单 2-23 ”WordCount.java 代 码 


package org.apache.hadoop.examples; 
大 大 


ne 


public class WordCount { 


public st 
ex! 
private 


tends Mapper«Object, 


tatic class TokenizerMapper 


Text, Text, 


final static 


IntWri 


table one = 


privali 


te Text word = new 
public void map(Object key, 
) throws IOException, 


Text (); 


Text value, 


IntWri 


new 


IntWritable»([( 
table (1); 


Context context 
InterruptedException { 


StringTokenizer itr = new StringTokenizer (value.toString()); 


while 


} 
} 
} 


public static class 
exi 
private 


(itr.hasMoreTokens()) { 


word.set(itr.nextToken()); 
context.write(word, one); 


IntWritable result 


IntSumReducer 
tends Reducer«Text,IntWritable, Text,IntWritable» { 


public void reduce (Text key, 
Context context 
) throws IOException, 


int sum = 0; 


for ( 


IntWritable val 


Iterable<] 


= new IntWritable(); 


[ntWritable» values, 


InterruptedException { 


: values) { 


) 


sum += val.get(); 


result.set (sum); 
context.write(key, result); 


} 
} 


public static void main(String[] args) throws 
= new Configuration(); 
String[] otherArgs = new GenericOptionsParser (conf, args).getRemainingArgs(); 


Cont 


figuration conf 


LE 


System.err.println("Usage: wordcount «in» [«in»http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/16328/0 


Exception { 


(otherArgs.length < 2) { 


System.exit (2); 


} 
Job 


job = new Job (conf 


, "word count"); 


job.setJarByClass (WordCount.class); 


job.setMapperClass (TokenizerMapper.c] 
job.setCombinerClass (1 


[ntSumReducer.class); 


job.setReducerClass (IntSumReducer.class); 
job.setOutputKeyClass 


job.setOutputValueClass (I 


for 


} 


(Text.class); 


ntWritable.class); 


(int i = 0; i < otherArgs.length - 1; ++i) ( 
FileInputFormat.addl 


FileOutputFormat.setOutputPath (job, 


new Path (otherArgs [otherArgs.length - 1] 


System.exit (job.waitForCompletion (true) 


下 面 对 该 代码 进行 分 析 。 


(1) 应 用 程序 Driver 分 析 


)s 


) 
2 0 to 1y; 


[nputPath (job, new Path(otherArgs[i])); 


2014/11/13 21:09 
2014/11/13 21:09 
2014/11/13 21:09 
2014/11/13 21:09 
2014/11/13 21:09 
2014/11/13 21:09 
2014/11/13 21:09 
2014/11/13 21:09 
2014/11/13 21:09 
2014/11/13 21:09 
2014/11/13 21:09 
2014/11/13 21:09 
2014/11/13 21:09 
2014/11/13 21:09 
2014/11/13 21:09 
2014/11/13 21:09 
2014/11/13 21:09 
2014/11/13 21:09 
2014/11/13 21:09 
2014/11/13 21:09 
2014/11/13 21:09 


这 里 的 Driver 程 序 主要 指 的 是 main 函 数 ， 在 main 函 数 里 面 设置 MapReduce 程 序 的 一 些 初始 化 设置 ， 并 提交 任务 等 待 程序 运行 完成 ， 如 代码 清单 2-24 所 示 。 


代码 清单 2-24 WordCount main 函 数 代码 


- ZIP 压缩 文件 , 解 包 大 小 为 1,028,242 F5 
修改 


47B23B73 
C8E2EF80 
195E2CAF 
CC2796F9 
7DE309... 

COE9CA... 

2B4F5978 
2A599503 
9B91936C 
BE6DD9.. 
2AB924... 

11F6FA63 

C2FOECBF 
69309B22 
3342B1EE 
OOFF0981 

F59C08B3 
A1FE0773 


EBPS/Text/...] «out»"); 


public static void main (String 


Cont 


figuration conf 


String[] otherArgs = new GenericOp 


aet 


} 
Job 


[] args) throws 
= new Configuration(); 


Exception { 


(otherArgs.length < 2) { 
System.err.println("Usage: wordcount «in» [«in»http://www.hzcourse.com/resource/readi 
System.exit (2); 


job = new Job(conf 


, "word count"); 


job.setJarByClass (WordCount.class); 


tionsParser (conf, args).getRemainingArgs(); 


Book?path-/openresources/teach ebook/uncompressed/16328/0E 


-— 


BPS/Text/.. 


al «oubs")s 


job.setMapperClass (TokenizerMapper.class); 
job.setCombinerClass (IntSumReducer.class); 
job.setReducerClass (IntSumReducer.class); 


job.setOutputKeyClass (Text.class); 

job.setOutputValueClass (IntWritable.class); 

for (inti = 0; i < otherArgs.length - 1; ++i) ( 
FileInputFormat.addInputPath (job, new Path(otherArgs[i])); 


} 
FileOutputFormat.setOutputPath (job, 

new Path(otherArgs[otherArgs.length - 1])); 
System.exit(job.waitForCompletion(true) ? 0 : 1); 


下 面 ， 针 对 WordCount main 遂 数 代码 进行 分 析 说 明 。 


1) 第 1 部 分 Configuration 代 码 ， 初 始 化 相关 Hadoop 配 置 。 在 2.4.1 节 中 也 看 到 过 ， 这 里 直接 新 建 一 个 实例 即 可 。 如 果 是 在 实际 的 应 用 程序 中 ， 可 以 通过 conf.set () 函数 添加 必要 参数 ， 即 可 直接 运 


4— 


1T» 


2) 第 2 部 分 代码 新 建 Job， 并 设置 主 类 。 这 里 的 Job 实 例 需要 把 Configuration 的 实例 传 入 ， 后 面 的 “word count” 是 该 MapReduce 任 务 的 任务 名 (注意 这 里 的 方式 使 用 的 还 是 不 推荐 的 MRV1 的 版 
本 ,推荐 使 用 MRV2 的 版 本 ) 。 


3) 第 3 部 分 代码 设置 Mapper、Reducer、Combiner， 这 里 的 设置 代码 都 是 固定 写法 ， 里 面 的 类 名 可 以 改变 ， 一 般 情 况 下 里 面 的 类 名 为 实际 任务 Mapper、Reducer、Combiner。 


4) 第 4 部 分 代码 设置 输出 键 值 对 格式 。 在 MapReduce 任 务 中 涉及 三 个 键 值 对 格式 : Mapper 输 入 键 值 对 格式 <K1，V1> ，Mapper 输 出 键 值 对 格式 <K2，V2> ，Reducer 输 入 键 值 对 格式 
«K2, V2», ，Reducer 输 出 键 值 对 格式 <K3，V3>。 当 Mapper 输 出 键 值 对 格式 <K2，V2> 和 Reducer 输 出 键 值 对 格式 <K3，V3> 一 样 的 时 候 ， 可 以 只 设置 输出 键 值 对 的 格式 (这 个 其 实 就 是 Reducer 输 出 的 
键 值 对 格式 ) , 需要 设置 “job.setMapOutputKeyClass (Text.class) ; job.setMapOutputKeyClass (IntWritable.class) ; 


5) 第 5、 第 6 部 分 代码 设置 输入 、 输 出 路 径 ， 其 实 还 有 输入 、 输 出 文件 格式 的 设置 ， 只 是 这 里 没有 设置 ， 如 果 不 是 默认 格式 ， 那 么 还 是 需要 设置 的 。 
6) 最 后 部 分 代码 是 提交 MapReduce 任 务 运行 〈 是 固定 写法 ) ， 并 等 待 任务 运行 结束 。 
综合 上 面 的 描述 ， 给 出 MapReduce 任 务 初始 化 以 及 提交 运行 的 一 般 代 码 ， 如 代码 清单 2-25 所 示 。 


代码 清单 2-25 ”MapReduce 通 用 Driver 代 码 


Configuration conf = new Configuration(); 
ob job -Job.getInstance (conf); 
ob.setMapperClass (AverageMapper.class); 
ob.setReducerClass (AverageReducer.class); 
ob.setCombinerClass (Reducer.class); 


job.setMapOutputKeyClass (Writable.class); 
job.setMapOutputValueClass (Writable.class); 


ob.setOutputKeyClass (Writable.class); 
ob.setOutputValueClass (Writable.class); 


ob.setInputFormatClass (TextInputFormat.class); 
ob.setOutputFormatClass (TextOutputFormat.class); 


job.waitForCompletion (true); 


在 实际 应 用 程序 中 ， 是 直接 从 应 用 程序 提交 任务 到 Hadoop 集 群 的 ， 而 非 使 用 yarn jar 的 方式 提交 jar 包 来 运行 算法 的 。 这 里 给 出 通用 的 提交 应 用 程序 到 Hadoop 集 群 的 代码 作为 参考 ， 不 过 在 此 之 前 
需要 简要 4 ELA MEHR 这 个 类 。 


Configuration 是 Hadoop 系 统 的 基础 公共 类 ， 可 以 通过 这 个 类 的 API 加 载 配置 信息 ， 同 时 在 初始 化 这 个 类 的 实例 的 时 候 也 可 以 设置 Hadoop 集 群 的 配置 ， 从 而 直接 针对 某 个 Hadoop 集 群 提交 任务 ， 其 
API 如 图 2-34 所 示 。 


set(String name, String value) : void - Configuration 
set(String name, String value, String source) : void - Configuration 
setBoolean(String name, boolean value) : void - Configuration 


setBooleanlfUnset(String name, boolean value) : void - Configuration 


1 
L d n 


m 


setDouble(String name, double value) : void - Configuration 


setEnum(String name, T value) : void - Configuration 


setFloat(String name, float value) : void - Configuration 


& setlfUnset(String name, String value) : void - Configuration 

& setlnt(String name, int value) : void - Configuration 

& setLong(String name, long value) : void - Configuration 

G setPattern(String name, Pattern pattern) : void - Configuration 
setQuietMode(boolean quietmode) : void - Configuration 

局 sei£teckethde ame-InetEecket^ddress-ad«e 

& setStrings(String name, String... values) : void - Configuration 


ë setIimeDuration(String name, long value, TimeUnit unit) : void - Configuration 


图 2-34 Configuration -&-ffset API 
Configuration 各 种 set APl 中 用 得 比较 多 的 还 是 第 1 个 ， 通 用 的 提交 应 用 程序 到 Hadoop 集 群 的 代码 也 是 使 用 的 第 1 个 ， 见 代码 清单 2-26。 


代码 清单 2-26 ”通用 提交 应 用 程序 到 Hadoop 集 群 代码 


Configuration configuration = new Configuration(); 
configuration.setBoolean ("mapreduce.app-submission.cross-platform", true); 


// 配置 使 用 跨 平台 提交 任务 


configuration.set ("fs.defaultFS", "hdfs://nodel:8020"); // 指定 namenode 
configuration.set ("mapreduce.framework.name" a // 指定 使 用 yarn 框 架 
configuration.set ("yarn.resourcemanager. address" "node1:8032") ; 

// 指定 resourcemanager 
configuration.set("yarn.resourcemanager.scheduler.address", "nodel:8030"); 
// 指定 资源 分 配器 

configuration.set ("mapreduce.jobhistory.address", "node2:10020"); 


// 指定 historyserver 
configuration.set (' pu job. jar","C:NNUsersNMfansyN Desktop NN jars NN 
import2hbase.jar");//W EB Mapper. Reducez 的 jaz 包 路 径 


注 
AR 上 面 的 值 需 要 根据 实际 的 Hadoop 集 群 对 应 配置 进行 修改 。 


同时 ， 通 过 Configuration 的 Set 方法 也 可 以 实现 在 Mapper 和 Reducer 任 务 之 间 信 息 共享 。 比 如 在 Driver 中 设置 一 个 参数 number， 在 Mapper 或 Reducer 中 取出 该 参数 ， 如 代码 清单 2-27 所 示 (注意 ， 
在 MapReduce 程 序 中 是 不 能 通过 全 局 static 变 量 获取 值 的 ， 这 点 需要 特别 注意 ) 。 


代码 清单 2-27 通过 Configuration 在 Driver 和 Mapper/Reducer 传 递 参数 


// 在 Driver 中 设置 参数 值 
Pueri ut conf = new Configuration(); 
conf.setInt (V"number",10); 
// 在 Reducer 中 取出 参数 值 
public class MyReducer extends Reducer«K2,V2,K3,V3»( 
public void setup (Context context) { 
int number = context.getConfiguration().getInt ("number"); 


(2) Mapper 分 析 
对 于 用 户 来 说 ， 其 实 比 较 关 心 的 是 Mapper 的 map 函 数 以 及 Reducer 的 reduce 函 数 ， 这 里 先 分 析 Mapper 的 map 遂 数 ， 如 代码 清单 2-28 所 示 。 


代码 清单 2-28 WordCount Mapper 代 码 


public static class TokenizerMapper extends Mapper<Object, Text, Text, Int-Writable> { 


private final static IntWritable one = new IntWritable (1); 
private Text word - new Text(); 


GQOverride 
protected void setup(Context context) 


throws IOException, InterruptedException { 
super.setup (context); 


} 


public void map (Object key, Text value, Context context) 
throws IOException, InterruptedException { 
StringTokenizer itr = new StringTokenizer (value.toString()); 
while (itr.hasMoreTokens()) { 
word.set(itr.nextToken()); 
context.write(word, one); 


} 


GOverride 
protected void cleanup (Context context) 
throws IOException, InterruptedException { 
super.cleanup (context); 


1) 自 定 义 Mapper 需 要 继承 Mapper， 同 时 需要 设置 输入 输出 键 值 对 格式 ， 其 中 输入 键 值 对 格式 是 与 输入 格式 设置 的 类 读 取 生 成 的 键 值 对 格式 匹配 ， 而 输出 键 值 对 格式 需要 与 Driver 中 设置 的 Mapper 输 
出 的 键 值 对 格式 匹配 。 


2) Mapper 有 3 个 函数 ， 分 别 是 setup、map、cleanup， 其 中 实现 setup、cleanup 函 数 不 是 必须 要 求 ，Mapper 任 务 启动 后 首先 执行 setup 函 数 ， 该 国 数 主 要 用 于 初始 化 工作 ; 针对 每 个 键 值 对 会 执行 
一 次 map 函 数 ， 所 有 键 值 对 处 理 完成 后 会 调用 cleanup 函 数 ， 主 要 用 于 关闭 资源 等 操作 。 


3) 实现 的 map 逊 数 就 是 与 实际 业务 逻辑 挂 钓 的 代码 ， 主 要 由 用 户 编写 ， 这 里 是 单词 计数 程序 ， 所 以 这 里 的 逻辑 是 把 每 个 键 值 对 ( 键 值 对 组 成 为 : < 行 的 偏 移 量 ， 行 字符 串 > ) 的 值 (也 就 是 行 字符 串 ) 
按照 空格 进行 分 割 ， 得 到 每 个 单词 ， 然 后 输出 每 个 单词 和 1 这 样 的 键 值 对 。 


(3) Reducer 分 析 
Reducer 针 对 Mapper 的 输出 进行 整合 ， 同 时 输入 给 Reducer 的 是 键 值 对 组 ， 所 以 其 实 Reducer 中 的 reduce 函 数 就 是 针对 每 个 键 的 所 有 汇总 值 的 处 理 。Reducer 代 码 如 代码 清单 2-29 所 示 。 


代码 清单 2-29 WordCount Reducer 代 码 


public class IntSumReducer extends Reducer«Text, IntWritable, Text, IntWritable> { 
private IntWritable result = new IntWritable(); 
QOverride 
protected void setup(Reducer«Text, IntWritable, Text, IntWritable».Context context) 
throws IOException, InterruptedException { 
super.setup (context); 


} 
public void reduce (Text key, Iterable<IntWritable> values, Context context) 
throws IOException, InterruptedException { 

int sum = 0; 

for (IntWritable val : values) { 

sum += val.get(); 


} 
result.set (sum); 
context.write(key, result); 


} 
QOverride 
protected void cleanup(Reducer«Text, IntWritable, Text, IntWritable».Context context) 
throws IOException, InterruptedException { 
super.cleanup (context); 


1) 自 定 义 Reducer 同 样 需 要 继承 Reducer， 与 Mapper 相 同 ， 需 要 设置 输入 输出 键 值 对 格式 ， 这 里 的 输入 键 值 对 格式 需要 与 Mapper 的 输出 键 值 对 格式 保持 一 致 ， 输 出 键 值 对 格式 需要 与 Driver 中 设置 的 
输出 键 值 对 格式 保持 一 致 。 


2) Reducer 也 有 3 个 函数 : setup、cleanup、reduce， 其 中 setup、cleanup 国 数 其 实 和 Mapper 的 同名 函数 功能 一 致 ， 并 且 也 是 setup 函 数 在 最 开始 执行 一 次 ， 而 cleanup 函 数 在 最 后 执行 一 次 。 


3) 用 户 一 般 比 较 关心 reduce 函 数 的 实现 ， 这 个 函数 里 面 写 的 就 是 与 业务 相关 的 处 理 罗 辑 了 ， 比 如 ， 这 里 单词 计数 ， 就 针对 相同 键 ， 把 其 值 的 列表 全 部 加 起 来 进行 输出 。 
2.4.3 ”动手 实践 : 编写 Word Count 程序 并 打包 运行 
1) 打开 Eclipse， 新 建 MapReduce 工 程 ， 如 图 2-35、 图 2-36 所 示 。 


Le i 
WE 需要 配 置 Hadoop 的 安装 目录 ， 因 为 这 里 的 Eclipse 安装 在 Windows 系 统 上 ， 所 以 这 里 的 Hadoop 安 装 目录 就 是 指 Hadoop 安 装 包 的 解压 目录 。 
建 好 的 工程 如 图 2-37 所 示 (注意 ， 这 里 还 有 相关 jar 包 没有 列 出 ) 。 


2) 参考 上 一 节 的 代码 编写 单词 计数 程序 。 


New 


select a wizard 


Wizards: 


" pe filter text 


(2 Java Project 
$ Java Project from Existing Ant Buildfile 
(Ø Map/Reduce Project 


| xt | Finish 


图 2-35 ”建立 MapReduce 工 程 1 
New MapReduce Project Wizard 
MapReduce Project 
Create a MapReduce project. 


Project name: Demo01| 


Use default location 


y. 


Location: CUsersfansywor 以 培训 人 综合 \ 云 计算 课程 讲 凡 students_ project Demo01 Browse... 
Choose file systern: defason 
Hadoop MapReduce Library Installation Path 


@ Use default Hadoop 


O Specify Hadoop library location Browse... 


| | Next > Cancel 


图 2-36 ”建立 MapReduce 工 程 2 


v ic? Demo01 
) [HR Src 
Bà JRE System Library [jdk1.7.0 79] 


hadoop-common-2.6.0Jar - CAUsers* 


一 


hadoop-mapreduce-client-core-2.6.0. 
hadoop-mapreduce-client-common-: 


hadoop-yarn-common-2.6.0,Jar - CAL 


12-37 MapReduce 工 程 结构 
3) 使 用 Eclipse 的 Export 中 的 JAR file 工 具 打 包 成 jar 包 ， 如 图 2-38、 图 2-39 所 示 。 


4) 获取 导出 的 jar 包 ， 通 过 Linux 连 接 工 具 把 该 jar 包 上 传 到 Hadoop 客 户 端 ， 并 使 用 命令 yarn jar 的 方式 运行 。 
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图 2-39 MapReduce 代 码 导 出 jar 包 2 


5) 查看 输出 结果 信息 及 相关 监控 信息 ， 并 能 进行 简要 分 析 。 
思考 : 
1) 使 用 yarn jar 的 方式 运行 完 程序 后 ， 终 端 输出 的 信息 怎么 解读 ? 


2) 查看 相关 监控 ,除了 使 用 浏览 器 ， 还 可 以 使 用 什么 方式 查询 ? 


2.4.4 MapReduce 组 件 分 析 与 编程 实践 


MapReduce 整 个 流程 包括 以 下 步骤 : 输入 格式 (InputFormat) 、Mapper、Combiner、Partitioner、Reducer、 输 出 格式 (OutputFormat) 。 这 里 会 针对 流程 中 的 Combiner、Part-itioner、 输 
入 /输出 格式 进行 分 析 ， 同 时 ， 也 会 介绍 相关 的 编程 技巧 ， 如 自 定 义 键 值 对 。 


1.Combiner 分 析 
Combiner 是 什么 呢 ? 从 字面 意思 理解 ，Combine 即 合并 。 其 实 ，Combiner 就 是 对 Mapper 的 输出 进行 一 定 的 合并 ， 减 少 网 络 输出 的 组 件 。 所 以 ， 其 去 掉 与 否 不 影响 最 终结 果 ， 影 响 的 只 是 性 能 。 


Combiner 是 Mapper 端 的 汇总 ， 然 后 才 通 过 网 络 发 向 Reducer。 如 图 2-40 所 示 ， 经 过 Combiner 后 ， 键 值 对 <ls，1> ，<1s，1> 被 合并 为 <1sS，2> ， 这 样 发 往 Reducer 的 记录 就 可 以 减少 一 条 (3495, SC 
际 中 肯定 不 是 只 减少 一 条 记录 ) ， 从 而 减少 了 网 络 1O。 


对 于 多 个 输入 数据 块 ， 每 个 数据 块 产生 一 个 Inputsplit， 每 个 Inputsplit 对 应 一 个 map 任 务 ， 每 个 map 任 务 会 对 应 0 个 到 多 个 Combiner， 最 后 再 汇总 到 Reducer。 在 单词 计数 的 例子 中 ， 使 用 Combiner 
的 情形 如 图 2-41 所 示 。 
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图 2-41 单词 计数 使 用 Combinet 


需要 注意 的 是 ， 自 定义 Combiner 也 是 需要 集成 Reducer 的 ， 同 样 也 需要 在 reduce 国 数 中 写 入 处 理 逻 辑 。 但 是 要 注意 ，Combiner 的 输入 键 值 对 格式 与 输出 键 值 对 格式 必须 保持 一 致 ， 也 正 是 因为 这 个 要 
求 ， 很 多 情况 下 ， 采 用 自 定义 Combiner 的 方式 在 业务 或 算法 处 理 上 行 不 通 。 还 有 ， 在 单词 计数 程序 中 ，Combiner 和 Reducer 使 用 的 是 同一 个 类 代码 ， 这 是 可 能 的 ， 但 是 大 多 数 情况 下 不 能 这 样 做 ， 因 为 
Reducer 和 Combiner 的 逻辑 在 很 多 情况 下 是 不 一 样 的 。 


2.Partitioner 分 析 


Partitioner 是 来 做 什么 的 呢 ? 是 用 来 提高 性 能 的 吗 ? 非 也 ! Partitioner 主 要 的 目的 是 把 键 值 对 分 给 不 同 的 Reducer。 分 给 不 同 的 Reducer? 难道 Reducer 可 以 有 多 个 吗 ? 这 是 当然 的 ， 只 需要 在 初始 化 
Job 实 例 的 时 候 进行 设置 即 可 ， 例 如 设置 代码 为 job.setNum-ReduceTasks (3) ， 这 样 就 可 以 设置 3 个 Reducer 了 。 


经 过 前 面 的 分 析 可 以 知道 ， 在 Reducer 的 输入 端 ， 其 键 值 对 组 是 按照 一 个 键 对 应 一 个 值 列表 的 。 如 果 同 一 个 键 的 不 同 值 被 发 送 到 了 不 同 的 Reducer 中 ， 那 么 (注意 ， 每 个 Reducer 在 一 个 子 节点 运行 ,不 
同 Reducer 之 间 不 会 干扰 ) ， 经 过 不 同 的 Reducer 处 理 后， 其 实 我 们 已 经 做 不 到 针对 一 个 键 ， 输 出 一 个 值 了 ， 而 是 输出 了 两 条 记录 。 我 们 可 以 看 下 Hadoop 系 统 默认 的 Partitioner 实 现 ， 默 认 的 Partitioner 是 
HashPartitioner， 其 源码 如 代码 清单 2-30 所 示 。 


代码 清单 2-30 ”HashPartitioner 源 人 码 


public class HashPartitioner«K, V» extends Partitioner«K, V» { 
/** Use (Glink Object4hashCode()]) to partition. */ 
public int getPartition(K key, V value, 
int numReduceTasks) ( 
return (key.hashCode() & Integer.MAX VALUE) $ numReduceTasks; 
) 
} 


在 源码 中 ， 可 以 看 到 HashPartitiner 中 只 有 一 个 方法 ， 就 是 getPartition (K key, V value, int numReducTasks) 。3 个 参数 分 别 为 键 、 值 、Reducer 的 个 数 ， 输 出 其 实 就 是 Reducer 的 ID。 从 代码 的 
实现 中 可 以 看 出 ， 最 终 输 出 的 Reducer ID 只 与 键 (key) 的 值 有 关 ， 这 样 也 就 保证 了 同样 的 键 会 被 发 送 到 同一 个 Reducer 中 处 理 。 
o: 
A 同一 个 键 的 记录 会 被 发 送 到 同一 个 Reducer 中 处 理 ， 一 个 Reducer 可 以 处 理 不 同 的 键 的 记录 。 
3. 输 入 输出 格式 / 键 值 类 型 


一 般 来 说 ，HDFS 一 个 文件 对 应 多 个 文件 块 ， 每 个 文件 块 对 应 一 个 InputSplit， 而 一 个 InputSplit 就 对 应 一 个 Mapper 任 务 ， 每 个 Mapper 任 务 在 一 个 节点 上 运行 ， 其 仅 处 理 当 前 文件 块 的 数据 ， 但 是 我 们 
编写 Mapper 的 时 候 只 是 关心 输入 键 值 对 ， 而 不 是 关心 输入 文件 块 。 那 么 ， 文 件 块 怎么 被 处 理 成 了 键 值 对 呢 ?” 这 就 是 Hadoop 的 输入 格式 要 做 的 工作 了 。 


在 InputFormat 中 定义 了 如 何 分 割 以 及 如 何 进行 数据 读 取 从 而 得 到 键 值 对 的 实现 方式 ， 它 有 一 个 子 类 FilelnputFormat， 如 果 要 自 定义 输入 格式 ， 一 般 都 会 集成 它 的 子 类 File-InputFormat， 它 里 面 帮 
我 们 实现 了 很 多 基本 的 操作 ， 比 如 记录 跨 文件 块 的 处 理 等 。 


图 2-42 所 示 是 InputFormat 的 类 继承 结构 。 
然而 ， 比 较 常用 的 则 是 如 表 2-7 所 示 的 几 个 实现 方式 。 


同 理 ， 可 以 想象 ， 输 出 格式 (OutputFormat) 也 与 输入 格式 相同 ， 不 过 是 输入 格式 的 逆 过 程 : 把 键 值 对 写 入 HDFs 中 的 文件 块 中 。 如 图 2-43 所 示 是 OutputFormat 的 类 继承 结构 。 
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图 2-42 ”输入 格式 [InputFormat 类 继承 结构 


表 2-7 常用 的 InputFormat 实 现 类 


输入 格式 键 类 型 值 类 型 


TextInputFormat 默认 格式 ， 访 取 文 件 的 行 fre T fw fe ( Long- 行 的 内 容 CText) 
Wriable ) 


SequenceFileInputFormat Hadoop 定义 的 高 性 能 二 用 户 目 定义 
进 制 格式 


KeyValueInputFormat 把 行 解析 为 键 值 对 第 一 个 tab 字符 前 的 所 有 行 剩 下 的 内 容 (Text) 
字符 (Text) 


同样 ， 比 较 常 用 的 方式 如 表 2-8 所 示 。 


表 2-8 ”常用 的 OutputFormat 实 现 类 


输出 格式 | $ 
TextOutputFormat 默认 的 输出 格式 ， 以 "key \t value" 的 方式 输出 行 
SequenceFileOutputFormat 输出 二 进 制 文件 ， 适 合 于 读 取 为 子 MapReduce 作业 的 输入 
NullOutputFormat 忽略 收 到 的 数据 ， 不 输出 
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图 2-43 OutputFormat 类 继承 结构 


在 Hadoop 中 ， 无 论 是 Mapper 或 Reducer 处 理 的 都 是 键 值 对 记录 ， 那 么 Hadoop 中 有 哪些 键 值 对 类 型 呢 ? Hadoop 中 常用 的 键 值 对 类 型 如 图 2-44 所 示 。 
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从 各 个 类 的 命名 上 其 实 也 可 以 看 出 其 代表 什么 类 型 ， 比 如 LongWritable， 代 表 的 就 是 Long 的 实现 ， 而 Text 就 是 String 的 实现 。 在 前 面 的 单词 计数 中 我 们 使 用 过 IntWritable 以 及 Text。 
这 里 有 两 点 需要 注意 : 
1) 值 类 型 都 需 实现 Writale 接 口 ; 
2) 键 需要 实现 WritableComparable 接 口 。 


其 实 从 图 2-44 中 也 可 以 看 出 ，Hadoop 已 有 的 键 值 类 型 都 是 实现 WritableComparable 接 口 的 ， 然 而 WritableComparable 接 口 又 是 实现 Writable 接 口 的 。 所 以 ，Hadoop 已 有 的 键 值 类 型 既 可 以 作为 键 
类 型 也 可 以 作为 值 类 型 。 作 为 键 类 型 的 肯定 可 以 作为 值 类 型 ， 但 作为 值 类 型 的 却 不 能 作为 键 类 型 。 为 什么 键 类 型 是 实现 WritableComparable 接 口 呢 ?其实 ， 如 果 你 联想 到 了 Shuffle/Sort 过 程 的 话 ， 应 该 不 
难 理解 ， 因 为 MapReduce 框 架 需要 在 这 里 对 键 进行 排序 。 


4. 动 手 实 践 : 指定 输入 输出 格式 

这 个 实验 主要 是 加 深 理 解 Hadoop 的 输入 /输出 格式 ， 熟 悉 常用 的 SequenceFilelnput-Format 和 SequenceFileOutputFormat。 

实验 步骤 : 

1) 打开 Eclipse， 打 开 已 经 完成 的 WordCount 程 序 ; 

2) 设置 输出 格式 为 SequenceFileOutputFormat， 重 新 打包 ， 并 提交 到 Linux 上 运行 ; 

3) 查看 输出 的 文件 ; 

4) 再 次 修改 WordCount 程 序 ， 设 置 输入 格式 为 SequenceFilelnputFormat、 输 入 路 径 为 3 的 输出 ;设置 输出 格式 为 TextFilelnputFormat; 
5) 查看 输出 结果 ; 

6) 针对 上 面 的 各 个 步骤 以 及 输出 进行 分 析 ， 解 释 对 应 的 输出 结构 。 

思考 : 

1) 第 4 步 中 查看 的 文件 是 否 是 乱码 ? 如 果 是 乱码 ， 为 什么 是 乱码 ? 针对 这 样 的 数据 ， 如 何 使 用 HDFS Java API 进 行 读 取 ? 如 果 不 是 乱码 ， 看 到 的 是 什么 ? 
2) 使 用 SequenceFilelnputFormat 或 SequenceFileOutputFormat 有 什么 优势 与 劣势 ? 

5. 自 定义 键 值 类 型 


Hadoop 已 经 定义 了 很 多 键 值 类 型 ， 比 如 Text、IntWritable、LongWritable 等 ， 那 为 什么 需要 用 到 自 定 键 值 类 型 呢 ? 答案 其 实 很 简单 ， 不 够 用 。 在 有 些 情况 下 ， 我 们 需要 一 些 特殊 的 键 值 类 型 来 满足 我 
们 的 业务 需求 ， 这 种 时 候 就 需要 自 定 义 键 值 类 型 了 。 前 面 已 经 提 到 ， 自 定义 键 需要 实现 WritableComparable 接 口 ， 自 定义 值 需要 实现 Writable 接 口 ， 那 么 实现 了 接口 后 ， 还 需要 做 哪些 操作 呢 ? 


自 定义 值 类 型 可 参考 代码 清单 2-31 进 行 分 析 。 
代码 清单 2-31 自 定 义 Hadoop 值 类 型 


public class MyWritable implements Writable { 
private int counter; 
private long timestamp; 
QOverride 
public void write(DataOutput out) throws IOException { 
out.writeInt (counter); 
out.writeLong (timestamp); 


} 

QOverride 

public void readFields (DataInput in) throws IOException { 
counter = in.readInt(); 
timestamp-in.readLong(); 


} 
} 


在 代码 清单 2-31 中 ， 首 先 实 现 了 Writable 接 口 ， 接 着 定义 了 两 个 变量 。 这 两 个 变量 其 实 是 与 业务 相关 的 (比如 ， 这 里 定义 了 一 个 counter， 一 个 timestamp) 。 实 现 了 Writable 接 口 后 ， 需 要 履 写 两 个 
方法 (write 和 readFields) ， 这 里 需要 注意 写 入 和 读 取 的 顺序 是 很 重要 的 ， 比 如 这 里 先 把 counter 写 入 out 输 出 流 ， 再 把 timestamp 写 入 out 输 出 流 。 那 么 ， 在 读 取 的 时 候 就 需要 先 读 取 cCounter， 再 读 取 
timestamp (如 果 两 个 变量 都 是 int 型 ， 那 么 就 更 加 需要 注意 区 分 ) 。 


自 定义 键 类 型 可 参考 代码 清单 2-32 进 行 分 析 。 


代码 清单 2-32 ” 自 定 义 Hadoop 键 类 型 


public class MyWritableComparable implements WritableComparable«MyWritableComparable» { 
private int counter; 
private long timestamp; 
GOverride 
public void write(DataOutput out) throws IOException { 
out.writeInt (counter); 
out.writeLong (timestamp); 


} 
QOverride 
public void readFields (DataInput in) throws IOException { 
counter = in.readInt(); 
timestamp- in.readLong(); 


GOverride 

public int compareTo (MyWritableComparable other) { 
if(this.counter == other.counter)(í 

return (int) (this.timestamp - other.timestamp); 


return this.counter-other.counter; 


从 代码 清单 2-32 中 可 以 看 出 ， 自 定义 键 类 型 其 实 就 是 比 自 定义 值 类 型 多 了 一 个 比较 方法 而 已 ， 其 他 都 是 一 样 的 。 
6. 动 手 实践 : 自 定 义 键 值 类 型 
针对 source/hadoop/keyvalue.data 数 据 求解 每 行 数据 的 个 数 以 及 平均 值 ， 该 数据 格式 如 表 2-9 所 示 。 


表 2-9 ”keyvalue.data 示 例 数 据 


9465097 12566713 11158207 11145916 11883199 12857908 
1419 11287582 9420209 8709207 11160736 12610128 
8553535 8709207 12518224 11044077 9650960 11886254 


1) 编写 Driver 程 序 ，main 函 数 接收 两 个 参数 <input> 和 <output> ， 设 置 输入 格式 为 KeyValuelnputFormat; 


2) 编写 Mapper 程 序 ，map 函 数 针 对 每 个 value 值 ， 使 用 Nt 进行 分 隔 ; 接着 ， 对 分 隔 后 的 数据 进行 求 和 以 及 个 数 统计 (注意 将 字符 串 转换 为 数值 ) ， 输 出 平均 值 和 个 数 ，Mapper 输 出 键 值 对 类 型 为 
«key, MyValue» ; 


3) 编写 自 定义 value 类 型 MyValue， 定 义 两 个 字段 ， 一 个 是 average， 一 个 是 hum， 用 于 存储 平均 值 和 个 数 ; 重 写 toString 方 法 ; 
4) 编写 Reducer 程 序 ， 直 接 输出 即 可 ; 

5) 对 编写 的 程序 进行 打包 averagejob.jar; 

6) 上 传 source/hadoop/keyvalue.data 到 HDFS， 上 传 averagejob.jar 到 Linux; 

7) 使 用 命令 hadoop jar averagejob.jar 进 行 调用 ; 

8) 查看 输出 结果 。 

思考 : 

1) Reducer 类 是 否 必需 ”如 果 不 需 要 ， 则 如 何 修改 ”如 果 去 掉 reducer， 输 出 结果 会 有 什么 不 一 样 ? 


2) 如 果 想 让 程序 可 以 直接 在 Eclipse 中 运行 ， 应 该 如 何 修改 程序 ? 


25 K-Means 算 法 原理 及 Hadoop MapReduce 实 现 


2.5.1 K-Means 算 法 原理 


K-Means 算 法 是 硬 聚 类 算法 ， 是 典型 的 基于 原型 的 目标 函数 聚 类 方法 的 代表 。 它 是 将 数据 点 到 原型 的 某 种 距离 作为 优化 的 目标 浮 数 ， 利 用 遂 数 求 极 值 的 方法 得 到 达 代 运算 的 调整 规则 (如 图 2-45 所 


zx) 。K-Means 算 法 以 欧 氏 距离 作为 相似 度 测度 ， 求 对 应 某 一 初始 聚 类 中 心 向 量 V 最 优 分 类 ， 使 得 评价 指标 最 小 。 算 法 采用 误差 平方 和 准则 函数 作为 聚 类 准则 函数 。 


[2-45 K-Means ik Xt XE t4 


具体 的 算法 步骤 如 下 : 
1) 随机 在 图 中 取 K (这 里 K = 2) 个 种 子 点 。 
2) 然后 对 图 中 的 所 有 点 求 到 这 K 个 种 子 点 的 距离 ， 假 如 点 Pi 离 种 子 点 Si 最 近 ， 那 么 Pi 属于 Si 点 群 。 图 2-45 中 ， 我 们 可 以 看 到 A、B 属 于 上 面 的 种 子 点 ，C、D、E 属 于 下 面 中 部 的 种 子 点 。 


3) 接 下 来 ， 我 们 要 移动 种 子 点 到 属于 它 的 “点 群 ”的 中 心 。 见 图 2-45 中 的 第 3 步 。 
4) 然后 重复 第 2) 和 第 3) 步 ， 直 到 种 子 点 没有 移动 。 我 们 可 以 看 到 图 2-45 中 的 第 4 步 上 面 的 种 子 点 聚合 了 A、B、C， 下 面 的 种 子 点 聚合 了 D、 上 E。 


图 2-46 所 示 为 K-Means 算 法 的 流程 图 。 


选择 K 个 聚 类 中 心 


计算 每 一 个 数据 向 量 与 K 个 聚 类 中 心 的 
距离 ， 把 它 归 类 到 距离 最 近 的 那个 类 中 


计算 新 的 聚 类 中 心 


N 
"n 


否 满足 终止 条 件 ”? 


站 | 
m 4 


进行 分 类 并 输 


图 2-46”K-Means 算 法 流程 图 
该 流程 图 摘 述 其 实 和 算法 步骤 类 似 ， 不 过 ， 这 里 需要 考虑 下 面 几 个 问题 : 
1) 选择 k 个 聚 类 中 心 用 什么 方法 ? 
提示 : 可 以 随机 选择 或 直接 取 前 k 条 记录 。 
2) 计算 距离 的 方法 有 哪些 ? 
提示 : 欧 氏 距离 、 余 弦 距 离 等 。 
3) 满足 终止 条 件 是 什么 ? 
提示 : 使 用 前 后 两 次 的 聚 类 中 心 误差 ( 需 考虑 国 值 小 于 多 少 即 可 ) ;使 用 全 局 误差 小 于 阅 值 ( 阅 值 选择 多 少 ? ) 。 


请 读者 考虑 上 面 的 几 个 问题 ， 并 完成 下 面 的 动手 实践 (K-Means 算 法 实现 ) 。 


2.5.2 动手 实践 : K-Means 算 法 实现 


编写 单机 版 的 K-Means 算 法 有 利于 理解 Hadoop 实 现 的 K-Means 算 法 ， 所 以 这 里 给 出 单机 版 (Java) 的 编写 步骤 ， 供 读者 参考 。 


实验 步骤 如 下 : 


1) 打开 Eclipse， 新 建 Java 工 程 kmeans1.0; 


2) 参考 前 面 的 流程 完善 K-means 代 码 ; 
3) 使 用 测试 数据 hadoop/data/kmeans.data 进 行 测试 ， 查 看 结果 ; 


4) 思考 把 该 算法 转换 为 Hadoop MapReduce 实 现 的 思路 。 
2.5.3 Hadoop K-Means 算 法 实现 思路 


针对 K-Means 算 法 ， 本 节 给 出 两 种 实现 思路 。 思 路 1 相对 比较 直观 ， 但 是 效率 较 低 ; 思路 2 人 在 实现 上 需要 自 定义 键 值 类 型 ， 但 是 效率 较 高 。 下 面 是 对 两 种 思路 的 介绍 。 
思路 1 

如 图 2-47 所 示 ， 算 法 描述 如 下 : 

1) 根据 原始 文件 生成 随机 聚 类 中 心 向 量 ( 需 指定 聚 类 中 心 向 量 个 数 k) ,指定 循环 次 数 ; 


2) 在 map 阶 段 ，setup 遂 数 读 取 并 初始 化 聚 类 中 心 向 量 ;在 map 销 数 中 读 取 每 个 记录 ， 计 算 当 前 记录 到 各 个 聚 类 中 心身 量 的 距离 ， 根 据 到 聚 类 中 心 向 量 最 小 的 聚 类 中 心 id 判 断 该 记录 属于 哪个 类 别 ， 输 
出 所 属 聚 类 中 心 id 和 当前 记录 ; 


3) 在 reduce 阶 段 ，reduce 函 数 接收 相同 聚 类 中 心 id 的 数据 ; 把 这 些 数据 的 每 列 进行 求 和 ， 并 记录 每 列 的 个 数 ; 计算 新 的 聚 类 中 心 向 量 (每 列 的 和 除 以 每 列 的 个 数 ) ， 然 后 输出 聚 类 中 心 id 和 新 的 聚 类 
中 心 向 量 ; 


4) 判断 前 后 两 次 聚 类 中 心 向 量 之 间 的 误差 是 否 小 于 某 阅 值 ， 如 果 小 于 ， 则 跳 转 到 步骤 5) ， 否 则 跳 转 到 步骤 2) ; 
5) 针对 最 后 一 次 生成 的 聚 类 中 心 向 量 对 原始 数据 进行 分 类 ， 得 到 每 个 记录 的 类 别 。 


其 MR 数据 流 如 图 2-48 所 示 。 


初始 化 聚 类 中 心 回 量 、 最 大 循环 次 数 iteration 、 循 环 国 值 delta 


Mapper: 
setup(): DURAS 中 心 回 量 
map(): 1. 针对 每 个 记录 ， 计 算 其 与 聚 类 中 心 的 距离 ; 2. 找到 距离 最 小 的 聚 类 中 心 


下 标 ， 输 出 < 聚 类 中 心 下 标 ,该 记录 > 


Reducer: 
reduce(): 针对 每 组 聚 类 中 心 :d， 计算 有 所 有 仁 的 和 以 及 个 数 ， 
输出 < 聚 类 中 心 id, 新 的 聚 类 中 心 同 量 > 


"i 


是 否 满 足 循 环 国 值 delta? 


Pi 


是 否 分 类 ? 


根据 聚 类 中 心 向 量 进行 分 类 


图 2-47 Hadoop 实 现 K-Means 算 法 思路 1 


更 新 后 的 聚 类 中 心 回 量 
1.15,1.3,1.45—2 9| 1 
24.20.17.20.132 92 


聚 类 中 心 回 量 


1,1,1 25511 


20,20,20 一 类 别 2 304,303.5,299.5 一 类 别 3 
300.300.300 一 类 别 3 


Mapper 处 理 过 程 


原始 数据 
Reducer 处 理 过 程 


L123 类 别 1 一 1.1,1.2,1.3 l 

1.2,1.4,1.6 ka> 21416 类 别 1 一 (<1.1,1.2,1.3>,<1.2,1.4,1.6>) 
212124 Se 32 类 别 2 一 (<21.21.24>,<23.25.26>,<28,19.14>) 
23.25.26 类 类 别 3 一 (<299,298,291>,<309,309,308>) 
28,19.14 类 


299.298.291 类 别 3 一 299.298.291 类 别 1 一 (<1.1,1.2,1.3>+<1.2,1.4,1.6>)/2 
309.309.308 类 别 3 一 309.309.308 类 别 2 一 


(<21,21,24>+<23,25,26>+<28,19,14>)/3 
类 别 3 一 (<299,298,291>+<309,309,308>)/2 


图 2-48 ”Hadoop 实 现 K-Means 算 法 思路 1 数据 流 
思路 2 
如 如 图 2-49 所 示 ， 算 法 描述 如 下 : 
1) 根据 原始 文件 生成 随机 聚 类 中 心 向 量 ( 需 指定 聚 类 中 心 向 量 个 数 k) ， 指 定 循环 次 数 。 


2) 在 map 阶 段 ，setup 函 数 读 取 并 初始 化 聚 类 中 心 向 量 ， 同 时 初始 化 聚 类 中 心 向 量 和 ;在 map 水 数 中 读 取 每 个 记录 ， 计 算 当 前 记录 到 各 个 聚 类 中 心 向 量 的 距离 ， 根 据 到 聚 类 中 心 向 量 最 小 的 聚 类 中 心 id 
判断 该 记录 属于 哪个 类 别 ， 然 后 把 所 属 的 类 别 加 入 到 聚 类 中 心 向 量 和 中 (需要 记录 个 数 及 和 ， 即 需要 自 定义 类 型 ) ; 在 cleanup 函 数 中 输出 所 属 聚 类 中 心 jd 和 其 对 应 的 聚 类 中 心 向 量 和 。 


初始 化 聚 类 
中 心 回 量 最 


大 循环 次 数 


Mapper: educer: 

setup0: 读 取 聚 类 中 心 向 量 ， 初 始 化 每 个 聚 类 中 心 向 量 和 | due PPS IIORSubid, HAERCR 
map():1. 针对 每 个 记录 ,计算 其 所 属 类 别 ; 2. 把 该 记录 的 值 的 和 以 及 个 数 ， 输 出 < 聚 类 中 心 id, 聚 类 
值 加 入 聚 类 中 心 向 量 和 ; 中 心 向 量 > B B 

cleanup(0): 和 输出 < 聚 类 中 心 id, 聚 类 中 心 回 量 和 > 


前 后 两 次 聚 类 
中 心 是 否 “相等 " 
或 循环 到 达 


图 2-49 ”Hadoop 实 现 K-Means 算 法 思路 2 


3) 在 reduce 阶 段 ，reduce 函 数 接收 相同 聚 类 中 心 id 的 数据 ;把 这 些 数据 的 每 列 进行 求 和 ， 并 记录 每 列 的 个 数 ; 计算 新 的 聚 类 中 心 向 量 (每 列 的 和 除 以 每 列 的 个 数 ) ， 然 后 输出 聚 类 中 心 id 和 新 的 聚 类 
中 心 向 量 。 


4) 判断 前 后 两 次 聚 类 中 心 向 量 之 间 的 误差 是 否 小 于 某 阐 值 ， 如 果 小 于 ， 则 跳 转 到 步骤 5) ， 否 则 跳 转 到 步骤 2) 。 


5) 针对 最 后 一 次 生成 的 聚 类 中 心 向 量 对 原始 数据 进行 分 类 ， 得 到 每 个 记录 的 类 别 。 


其 MR 数 据 流 如 图 2-50 所 示 。 
2.5.4 Hadoop K-Means 编 程 实 现 
在 下 面 的 实现 过 程 中 ， 会 进行 简单 实现 思路 介绍 ， 针 对 一 些 实现 会 有 动手 实践 给 读者 练习 。 一 般 情况 下 我 们 建议 读者 自己 全 部 实现 ， 对 于 实现 起 来 有 难度 的 读者 ， 我 们 提供 了 参考 程序 ， 但 是 需要 注 
意 ， 参 考 程 序 不 是 完整 的 ， 里 面 设 置 了 TODO 提 示 ， 这 些 地 方 是 需要 读者 去 完善 的 。 
聚 类 中 心 向 量 更 新 后 的 聚 类 中 心 回 量 


1.1$.1.3.1.45 一 类 别 1 
24.20.17.20.13 一 类 别 2 
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类 别 2 一 (<72,65,64>,3;<46,47,44>,2) 


1.2.1.4.1.6 类 别 3 一 (<299,298,291>,<309.309,308>) 
3215154 31|3—(«608,607,599»,2:«519,527,529»,2) 


类 
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23,25,26 | 
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d ` Á -~ LL REL MU Au I 
309,309,308 类 别 3 一 <608,607,599>,2) 类 别 3 一 (<608， 607,599».-«519,527,529»)/(24-2) : 
I 


1.2,1.3,1.4 
1.53:1 2.1.1 


类 别 1 一 (<1.2,1.3,1.4>,<1.3,1.2,1.1>) 
类 别 2 一 (<22,23,21>,<24,24,23>) 


^? 
Pc 类 别 3 一 (<200,208,211>,<319.319.318>) 
24.24,23 
200,208,211 
319,319,318 类 别 1 一 (<2.5,2.5,2.5>,2) 


类 别 2 一 (<46,47,44>,2) 


类 别 3 一 (<519,527,529>,2) 


图 2-50 ”Hadoop 实 现 K-Means 算 法 思路 2 数据 流 


是 思路 1 还 是 思路 2，Hadoop 实 现 K-Means 算 法 都 包含 4 个 步骤 : @ 初 始 化 聚 类 中 心 向 量 ;，@ 进 行 聚 类 并 更 新 聚 类 中 心 向 量 ;，@ 判 断 是 否 达 到 循环 条 件 ， 如 果 是 则 循环 ，@ 判 断 是 否 需 要 对 原始 数 
据 进 行 分 类 ， 如 果 是 则 进行 分 类 操作 。 下 面 就 针对 这 4 个 步骤 分 别 进行 分 析 。 


(1) 初始 化 聚 类 中 心 向 量 : 蓄 水 池 抽 样 


初始 化 聚 类 中 心 其 实 和 单机 算法 类 似 ， 可 以 有 多 种 方法 ， 比 如 随机 取出 k 个 聚 类 中 心 向 量 、 直 接 取出 前 k 个 聚 类 中 心 向 量 等 。 在 Hadoop 的 编程 框架 MapReduce 限 制 下 ， 如 果 是 随机 取 k 个 聚 类 中 心 向 
量 ， 那 么 实现 起 来 就 是 这 样 的 : 遍历 一 次 所 有 数据 ， 统 计数 据 个 数 n， 再 次 遍历 ， 按 照 k/n 概 率 抽取 K 个 数据 。 这 样 不 是 不 可 以 ， 但 是 效率 太 低 ， 并 且 如 果真 要 实现 起 来 ， 还 是 要 考虑 多 个 问题 的 ， 比 如 如 果 
有 多 个 Mapper 怎 么 处 理 ? 


这 里 提出 一 种 效率 高 ， 并 且 还 能 达到 随机 取 数 的 算法 一 蓄 水 池 抽 样 。 


什么 是 蓄 水 池 抽样 呢 ” 简单 描述 : 先 选中 第 1 ~ k 个 元 素 ， 作 为 被 选中 的 元 素 。 然 后 依次 对 第 k + 1 至 第 n 个 元 素 做 如 下 操作 : 每 个 元 素 都 有 k/x 的 概率 被 选中 ， 然 后 等 概率 地 (1/k) 奉 换 掉 被 选中 的 元 素 
(其 中 x 是 元 素 的 序号 ) 。 其 算法 伪 代 码 描 述 如 代码 清单 2-33 所 示 。 


代码 清单 2-33 ” 蓄 水 池 抽 样 伪 代 码 


Init : a reservoir with the size: k 
for i= k+1 to N 
M=random (1, i); 
if( M « k) 
SWAP the Mth value and ith value 


end for 


蔓 水 池 抽 样 同样 可 以 使 用 Driver、Mapper、Reducer 来 进行 分 析 。Driver 部 分 可 以 参考 MapReduce 程 序 的 固定 模式 ， 但 是 需要 注意 ， 需 要 传 入 聚 类 中 心 向 量 的 个 数 ， 即 k 值 。 其 代码 参考 代码 清单 2- 
34。 


代码 清单 2-34 ” 著 水 池 抽 样 Driver 示 例 代码 


public int run(String[] args) throws Exception { 

Configuration conf = getConf(); 

if (args.length != 3) { 
System.err.println("Usage: dome.job.SampleJob «in» «out» «selectRecords»"); 
System.exit (2); 


} 

// 设置 传 和 Mapper 以 及 Reducer 的 参数 

conf.setInt(SELECTRECORDS, integer.parseInt (args[2])); 
Job job = Job.getInstance (conf, "sample job " + args[0]); 
job.setJarByclass (SampleJob.class); 

job.setMapperClass (SampleMapper.class); 
job.setReducerClass (SampleReducer.class); 
job.setOutputKeyClass (Text.class); 
job.setOutputValueClass (NullWritable.class); 
FileInputFormat.addInputPath (job, new Path(args[0])); 
FileOutputFormat.setOutputPath (job, new Path (args[1])); 
return job.waitForCompletion(true) ? 0 : 1; 


} 


Mapper 就 是 某 水 池 抽 样 算法 的 具体 实现 了 ， 这 里 需要 注意 ，map 遂 数 针对 每 条 记录 进行 筛选 ， 并 不 输出 ， 所 以 这 里 在 cleanup 进 行 输 出 。 这 样 束 需要 在 setup 里 面 初始 化 一 个 变量 来 存储 当前 已 经 被 选 
为 聚 类 中 心 向 量 的 值 。 其 各 个 函数 摘 述 如 下 。 


setup () : 读 取 传 入 的 参数 值 selectedRecotdsNum， 初 始 化 当前 处 理 的 行 数 遍历 fow、 存 储 已 经 选择 的 selectedRecortdsNum 个 数据 变量 selectedRecotds。 


-map () : 每 次 map 函 数 读 取 一 行 记 录 ， 判 断 当 前 行 数 ftow 是 否 小 于 selectedRe-cotdsNum， 如 果 小 于 则 直接 把 当前 记录 加 入 selectedRecotds; 否则 ， 以 概率 selectedRecordsNumy/tow 使 用 当前 记录 来 对 
selectedRecotds 中 的 任 一 记录 进行 替换 。 其 部 分 代码 如 代码 清单 2-35 所 示 。 


: cleanup () : 直接 输出 selectedRecords 的 内 容 即 可 。 


代码 清单 2-35 ” 蓄 水 池 抽样 Mapper map 函 数 示例 的 代码 


protected void map(LongWritable key, Text value, Mapper<LongWritable, Text, NullWritable, Text>.Context context) 
throws IOException, InterruptedException { 
rowt+; // 行 数 加 1; 
if (row«-selectRecordsNum) { 
selectRecords[(int) (row-1)]- new Text (value.toString()); 
// 前 面 k 条 记录 直接 插入 
jelse{// 以 概率 k/i 决定 是 否 用 第 i 条 记录 替换 前 面 的 任意 一 条 记录 
int p = SampleJob.getRandom( (int) row); 
if (p<selectRecordsNum) (// 蔡 换 
selectRecords[p]-new Text (value.toString()); 


) 


在 设计 Reducer 的 时 候 需 要 考虑 的 一 个 问题 是 ， 如 果 有 多 个 Mapper 怎 么 办 ? 多 个 Mapper 就 会 故 送 kxN 个 聚 类 中 心 向 量 到 Reducer 中 (其 中 N 为 Mapper 的 个 数 ) ， 所 以 在 Reducer 端 需要 对 kx NNE 
录 骨 次 筛选 ， 选 出 其 中 的 k 个 聚 类 中 心 向 量 。 这 里 当然 也 有 多 种 方法 ， 其 实 这 里 的 选择 和 最 开始 我 们 在 Mapper 中 针对 所 有 数据 随机 选取 k 条 记录 的 选择 一 样 ， 这 里 所 有 数据 只 是 “ 变 ” 小 了 而 已 。 因 为 是 在 


Reducer 中 处 理 (一 个 Reducer 可 以 理解 为 单机 ) ， 所 以 其 实 也 可 以 理解 为 单机 的 随机 选择 k 条 记录 的 算法 。 这 里 随机 选择 k 条 记录 的 算法 也 可 以 ， 不 过 我 们 这 选择 使 用 蓄 水 池 抽样 。 


总 这 里 只 能 使 用 一 个 Reducer， 为 什么 ?请 读者 思考 。 

动手 实践 : 著 水 池 抽样 Hadoop 实 现 

首先 理解 上 面 蓄 水 池 抽 样 算法 的 Hadoop 实 现 的 描述 及 分 析 ， 接 着 新 建 工程 ， 并 参考 上 节 完 善 工 程 代码 功能 。 
实验 步骤 : 

1) 打开 Eclipse， 新 建 工程 2.5_002_sample; 

2) 添加 相关 环境 (如 JDK 路 径 、Hadoop 路 径 等 ) ; 

3) 参考 上 节 蕾 水 池 抽样 Hadoop 实 现 原理 实现 编写 源 代码 ; 

4) 把 工程 编译 ， 并 导出 jar 包 ， 然 后 上 传 jar 包 到 master 节 点 上 ， 使 用 yarn jar 的 方式 运行 ， 查 看 输出 及 相关 日 志 。 
思考 : 

1) 还 有 其 他 方式 实现 蓄 水 池 抽 样 吗 ? 

2) 如 何 查看 蓄 水 池 抽 样 抽取 出 来 的 结果 ? 

(2) 更 新 聚 类 中 心 向 量 


更 新 聚 类 中 心 向 量 其 实 就 是 整个 C-Means 算 法 的 核心 所 在 ，K-Means 算 法 的 每 次 循环 其 实 就 是 一 个 不 断 更 新 聚 类 中 心 向 量 的 过 程 。 那 么 具体 怎么 更 新 呢 ? 我 们 在 单机 算法 中 已 经 知道 怎么 更 新 了 ， 怎 么 
把 其 转换 为 Hadoop 的 MapReduce 代 码 呢 ? 其实， 可 以 把 每 个 Mapper 理 解 为 一 个 单机 算法 ， 因 为 其 处 理 的 数据 其 实 是 所 有 数据 的 一 部 分 (一 个 文件 块 ) 。 下 面 来 看 具体 涉及 的 Driver、Mapper 和 


Reducer。 
针对 Driver 类 ， 除 了 一 些 固定 写法 外 ， 还 需 传 入 聚 类 初始 中 心 向 量 路 径 、 聚 类 中 心 个 数 、 列 分 隔 符 (考虑 是 否 需要 ? ) ， 其 示例 代码 如 代码 清单 2-36 所 示 。 


代码 清单 2-36 ”更 新 聚 类 中 心 向 量 Driver 示 例 代码 


conf.set(SPLITTER, splitter ); 

conf.set(CENTERPATH, args[4]); 

conf.setInt(K, k); 

Job job -Job.getInstance (conf,"kmeans center path:"-*args[4]-*",output"-*output); 
ob.setJarByClass (KMeansDriver.class); 

ob.setMapperClass (KMeansMapper.class); 

ob.setReducerClass (KMeansReducer.class); 

ob.setMapOutputKeyClass (IntWritable.class); 

ob.setMapOutputValueClass (Text.class); 
ob.setOutputKeyClass (Text.class); 
ob.setOutputValueClass (NullWritable.class); 


LL dE LLL LIC LC ELI. 


.SetNumReduceTasks (1) ;// 如 果 有 多 个 会 有 什么 问题 ? 


| 
O 
o 


Reducer 设 置 多 个 会 有 什么 问题 ? 可 以 设置 多 个 吗 ? 设置 多 个 有 什么 好 处 ? 


Mapper 的 工作 主要 包括 两 个 : 其 一 ， 读 取 首 次 HDFS 上 的 聚 类 中 心 ; 其 二 ， 根 据 聚 类 中 心 对 每 个 键 值 对 记录 进行 距离 计算 ， 输 出 距离 最 小 的 聚 类 中 心 ID 以 及 该 条 键 值 对 记录 。 下 面 针 对 具体 实现 做 分 
析 。 


1) setup () : 读 取 传 入 的 初始 聚 类 中 心 向 量 路 径 ， 根 据 路 径 读 取 对 应 的 数据 ， 利 用 分 隔 符 来 对 初始 聚 类 中 心 向 量 进行 初始 化 (初始 化 为 数组 和 列表 ) 。 
2) map () : 在 map 阶 段 根据 初始 化 的 聚 类 中 心 向 量 对 当前 记录 进行 分 类 ， 输 出 其 对 应 的 聚 类 中 心 id、 当 前 记录 ， 如 代码 清单 2-37 所 示 。 


代码 清单 2-37 更 新 聚 类 中 心 向 量 Mapper map žr 


QOverride 

protected void map(LongWritable key, Text value, Mapper<LongWritable, Text, IntWritable, Text>.Context context) 

throws IOException, InterruptedException { 

int vecld = getC i ra Id(value.toString()); 

if(!validate (vecI 
logger.info (URP: [)",value.toString()); 
return ; 


} 

ID.set (vecId) ， 

context.write(ID, value); 
logger.info("ID:í(]),value:í])",new Object[]Íívecid, value]) ; 


Reducer 要 做 的 工作 就 是 针对 每 个 组 的 所 有 数据 计算 其 平均 值 (该 平均 值 就 是 新 的 聚 类 中 心 向 量 ) 。 其 函数 描述 如 下 。 


1) reduce () : 每 个 reduce 遂 数 针 对 同一 个 聚 类 中 心 id 的 数据 进行 处 理 ; 具体 处 理 过 程 为 ， 把 每 条 记录 对 应 列 的 值 加 起 来 ， 同 时 记录 当前 的 记录 数 ; 接着， 使 用 每 列 和 除 以 记录 数 ， 即 可 得 到 每 列 平 
均值 ， 也 就 是 当前 聚 类 中 心 id 新 的 聚 类 中 心 ， 如 代码 清单 2-38 所 示 。 


代码 清单 2-38 ”更 新 聚 类 中 心 向 量 Reducer reduce 国 数 示例 代码 


QOverride 
protected void reduce(IntWritable key, Iterable<Text> values, 
Reducer«IntWritable, Text, Text, NullWritable».Context arg2) throws IOException, InterruptedException ( 
double[] sume-null; 
long num 20; 
for(Text value: values) { 
String[] valStr = pattern.split(value.toString(), -1); 
if(sum--null) (// 初始 化 
Sum-new e length]; 
addToSum (sum, valStr);// 第 一 次 需要 加 上 
}else{ 
// 对 应 字段 相 加 
addToSum (sum, valStr); 
} 


num++; 


} 

if (num==0) { 
centerVec[key.get () ]=""; 

} 

averageSum (sum, num) ; 

centerVec[key.get()]-» format (sum); 


3) cleanup () : 输出 每 个 类 别 新 的 聚 类 中 心 。 

动手 实践 : Hadoop 实 现 更 新 聚 类 中 心 向 量 

实验 步骤 如 下 : 

1) 打开 Eclipse， 打 开 上 一 小 节 完 成 的 工程 ; 

2) 根据 上 节 Hadoop 实 现 更 新 聚 类 中 心 实 现 思 路 ， 编 写 对 应 源 代码 ; 

3) 把 工程 编译 并 导出 Jar 包 ， 然 后 上 传 Jar 包 到 master 节 点 上 ， 使 用 yarn jar 的 方式 运行 ， 查 看 输出 及 相关 日 志 。 
思考 : 如 何 测试 代码 ? 

(3) 是 否 循环 


是 否 满足 给 定 阅 值 。 这 里 使 用 的 是 方差 ， 其 描述 如 图 2-51 所 示 。 


n 
DA 
m 
E 
Ant 
将 
E 
B 
ES 
n 
NN 
38 
SÍ 
Ad 
ok 
i 
E 
hi 


c11,c12,... oa a E oa 
CZI GC E2 E IRC. re 


ck1,ck2,...ckm C k1,c' k2,...c'km 


error — | y (cij 7 c'ij)* < delta 


i=1~k,j=1~m 


图 2-51 前 后 两 次 聚 类 中 心 向 量 误差 计算 


还 需要 注意 的 问题 是 ， 如 果 不 满足 delta 阅 值 ， 那 么 再 次 循环 需 初始 化 对 应 参数 ， 主 要 包括 下 一 个 MapReduce 程 序 的 输入 聚 类 中 心 向 量 及 输出 路 径 等 。 


动手 实践 : Hadoop 实 现 更 新 聚 类 中 心 向 量 循环 
实验 步骤 如 下 : 

1) 打开 Eclipse， 打 开 上 一 小 节 完 成 的 工程 ; 

2) 参考 上 述 描述 完成 对 应 的 代码 ; 


3) 编译 工程 并 导出 jar 包 ， 然 后 上 传 jar 包 到 master 节 点 上 ， 使 用 yarn jar 的 方式 运行 ， 查 看 输出 及 相关 日 志 。 


分 类 是 针对 原始 数据 进行 的 ， 这 个 工作 其 实在 更 新 聚 类 中 心 向 量 的 Mapper 已 经 做 了 这 个 工作 ， 所 以 分 类 可 以 参考 前 面 的 Mapper。 这 里 不 给 出 其 具体 代码 ， 读 者 只 需要 完成 动手 实践 即 可 (分 类 动手 实 


B). 


1) 打开 Eclipse， 并 打开 已 经 完成 的 工程 ; 

2) 使 用 KMeansMapper 的 实现 ， 编 辑 Driver 主 类 ， 分 类 原始 数据 ; 

3) 编译 工程 ， 并 导出 jar 包 ， 然 后 上 传 jar 包 到 master 节 点 上 ， 使 用 hadoop jar 的 方式 运行 ， 查 看 输出 及 相关 日 志 。 

思路 2 

思路 2 其 实 和 思路 1 里 面 的 大 部 分 步骤 都 是 一 样 的 逻辑 流程 ， 只 是 在 更 新 聚 类 中 心 向 量 环节 做 了 优化 。 下 面 只 针对 优化 的 环节 做 分 析 ， 其 他 部 分 请 读者 参考 思路 
(1) 更 新 聚 类 中 心 向 量 


更 新 聚 类 中 心 向 量 的 Driver 部 分 直接 参考 思路 1 对 应 内 容 即 可 ， 这 里 直接 分 析 其 Mapper 实 现 。 结 合 前 面 内 容 ， 我 们 知道 这 里 需要 实现 自 定义 值 类 型 。 


由 于 Mapper 输 出 的 类 型 包含 列 和 、 个 数 ， 所 以 这 里 可 以 自 定义 一 个 值 类 型 ， 该 值 类 型 需 包含 一 个 double 的 数组 ， 用 于 存储 某 个 类 别 的 所 有 列 和 ;一 个 long 变 量 ， 用 于 存储 当前 类 别 的 数据 个 数 ， 如 代 


码 清单 2-39 所 示 。 


代码 清单 2-39 ”更 新 聚 类 中 心 向 量 Mapper 输 出 值 自 定义 类 型 示例 代码 1 


public class SumNumWritable implements Writable { 


private long num; 
private double[] sum; 


: 


同时 ， 覆 写 readFields、write 函 数 ， 在 这 里 针对 数组 类 型 还 需要 做 些 额外 的 处 理 。 其 处 理 过 程 为 存储 数组 的 长 度 ， 在 实例 化 类 的 时 候 传 入 数组 的 长 度 ， 否 则 会 报 NullPointer 的 异常 ， 如 代码 清单 2- 


40 所 示 。 


代码 清单 2-40 ”更 新 聚 类 中 心 向 量 Mapper 输 出 值 自 定义 类 型 示例 代码 2 


QOverride 
public void readFields (DataInput D throws IOException { 
this.num = in.readLong(); / 先 读 个 数 
int size = in.readInt(); / po 
sum — new qe le[size]; 
for aiu i = 0; i < size; i++) { 
sum[i] = in.readDouble(); 
} 
} 
QOverride 
public void write(DataOutput out) throws IOException { 
out .writeLong (this.num); // 先 写 入 个 数 
out.writeInt (sum.length); // 接着 号 入 sum 数 组 的 长 度 ; 
for (double d : sum) { 
out.writeDouble (d); // 依次 写 入 数组 的 值 


} 


CN 注 
L. 8 prem 
WE 写 入 或 者 读 取 时 ， 注 意 顺 序 ， 顺 序 重要 吗 ? 如 果 乱 序 会 有 什么 影响 ?请 读者 思考 。 


下 面 针 对 Mapper 进 行 分 析 。 


-setup () : 在 setup 元 数 中 ， 除 了 需要 参考 思路 1 把 初始 聚 类 中 心 读 取 出 来 外 ， 还 需要 初始 化 “ 列 和 ”; 由 于 每 个 类 别 都 有 一 个 “ 列 和 ”， 所 以 可 以 定义 一 个 “ 列 和 ”数组 ; 


始 化 该 “ 列 和 ”数组 ; 同时， 根据 初始 聚 类 中 心 的 列 个 数 类 初始 化 每 个 类 别 的 “ 列 和 ”的 double 数 组 ， 如 代码 清单 2-41 所 示 。 


代码 清单 2-41 ”更 新 聚 类 中 心 向 量 Mapper 的 setup 国 数 示例 


private SumNumWritable[] sumNums = null; 
GQOverride 
protected void setup(Mapper«LongWritable, Text, IntWritable, SumNumWritable».Context context) 
throws IOException, InterruptedException { 
centerPathStr = context.getConfiguration().get (MainDriver.CENTERPATH); 
splitter context.getConfiguration().get (MainDriver.SPLITTER); 

pattern = Pattern.compile (splitter); 
k = context.getConfiguration().getInt(MainDriver.K, 0); 


centerVec = new String[k]; 
sumNums = new SumNumWritable[k]; 
// 读 取 数据 


Path path = new Path(centerPathStr); 

FileSystem fs FileSystem.get (context.getConfiguration()); 

BufferedReader br-new BufferedReader (new InputStreamReader (fs.open(path))); 

try { 
String line; 
int index -0; 


while ((line -br.readLine())!- null){ 
logger.info("center "+index+" vector: ()",line); 
centerVec[index--]-line; 
} 
) finally ( 


br.close(); 


后 根据 聚 类 中 心 数 来 初 


] 
// 初始 化 sumNums 


colSize = pattern.split (centerVec[0]).length; 
for (int i=0;i<k;i++){ 
SumNums [i] = new SumNumWritable (colSize); 


} 


logger.info("colSize:()",colSize); 


SumNumWritablef4; S PRG VRBES ER 2-42 fT. 


代码 清单 2-42 ”更 新 聚 类 中 心 向 量 Mapper 输 出 自 定义 值 类 型 构造 函数 


public SumNumWritable(int size) ( 
this.sum = new double [size]; 
this.num -0; 


) 


map () : 在 map 函 数 中 在 得 到 当前 记录 的 类 别 后 〈 可 以 参考 思路 1 的 做 法 ) ， 需 要 根据 此 类 别 去 更 新 该 类 别 的 “ 列 和 ”以 及 个 数 ， 如 代码 清单 243 所 示 。 
代码 清单 2-43 ”更 新 聚 类 中 心 向 量 Mapper 的 map 函 数 示例 


/** 
* 更 新 列 和 以 及 个 数 
* (param sumNumWritable 某 个 类 别 的 \ 列 和 7 
* (iparam valArr 当前 记录 
* 
/ 
private void updateSumNum(SumNumWritable sumNumWritable, double[] valArr) { 
if(sumNumWritable--null) return ; 
sumNumWritable.setNum(sumNumWritable.getNum()-41); 
addSum (sumNumWritable.getSum(),valArr); // 这 里 不 用 setSum() 


: cleanup () : 在 cleanup 中 只 需要 输出 “ 列 和 ”数组 即 可 ， 如 代码 清单 2-44 所 示 。 


代码 清单 2-44 ”更 新 聚 类 中 心 向 量 Mapper 的 cleanup 国 数 示例 


GOverride 
protected void cleanup (Context context) 
throws IOException, InterruptedException { 
int index -0; 
for(SumNumWritable sn:sumNums)(í 
ID.set(index--); 
context.write(ID, sn); 


Reducer 只 需要 整合 各 个 Mapper 的 输出 记录 ， 针 对 每 个 记录 分 别 求 “ 列 和 ”、 个 数 和 ， 然 后 再 求 平均 即 可 得 到 新 的 聚 类 中 心 向 量 和 。 各 个 函数 描述 如 下 。 
setup () : 只 需 读 取 分 隔 符 参数 ， 并 进行 初始 化 即 可 (在 treduce 函 数 中 需要 使 用 此 参数 ) o 


. reduce () : 在 reduce 中 直接 使 用 for 循 环 读 取 每 个 类 别 的 “ 列 和 ”以 及 个 数 ， 分 别 相 加 即 可 得 到 每 个 类 别 的 最 终 “ 列 和 ”以 及 个 数 ， 然 后 求 平均 即 可 得 到 更 新 后 的 聚 类 中 心 向 量 ， 如 代码 清单 2.45 所 


代码 清单 2-45 ”更 新 聚 类 中 心 向 量 Reducer reduce 示 例 代码 


QOverride 
protected void reduce(IntWritable key, Iterable«SumNumWritable» values, 
Context context) throws IOException, InterruptedException { 
double[] sum=null; 
long num -0; 
for(SumNumWritable value:values)([í 
if(sum--null)( // 第 一 次 需要 初始 化 
sum = new qouble[value.getSum() .length]; 


addToSum (sum, value.getSum()); 
num-t-value.getNum(); 


—— 


if (num==0) { 

vec.set (""); 

log.info ("id: {} 类 别 没 有 数据 ! ",key.get 0); 
}else{ 


averageSum (sum, num) ; 
vec.set (format (sum) ) 
log.info("id: {}, RX bæ: [{}]",new Object[]{key.get (),vec.toString ()}); 


context.write(vec, NullWritable.get()); // 写 入 的 顺序 有 影响 吗 ? 如 果 顺 序 写 入 呢 ? 


(2) 动手 实践 : Hadoop 实 现 K-Means 算 法 思路 2 


请 读者 参考 思路 1 的 动手 实践 ,编写 K-Means 算 法 思路 2 的 Hadoop 实 现 。 


26 TF-IDF 算 法 原理 及 Hadoop MapReduce 实 现 


2.6.1 TF-IDF 算 法 原理 


原理 : 在 一 份 给 定 的 文件 里 ， 词 频 (Term Frequency，TF) 指 的 是 某 一 个 给 定 的 词语 在 该 文件 中 出 现 的 次 数 。 这 个 数字 通常 会 被 正规 化 ， 以 防止 它 偏向 长 的 文件 (同一 个 词语 在 长 文件 里 可 能 会 比 在 
豆 文件 里 有 更 高 的 词 频 ， 而 不 管 该 词语 重要 与 否 ) 。 逆 向 文件 频率 (Inverse Document Frequency, IDF) 是 一 个 词语 普遍 重要 性 的 度量 。 某 一 特定 词语 的 1DF 可 以 由 总 文件 数目 除 以 包含 该 词语 的 文件 的 
数目 ， 再 将 得 到 的 商 取 对 数 得 到 。 某 一 特定 文件 内 的 高 词语 频率 ， 以 及 该 词语 在 整个 文件 集合 中 的 低 文 件 频率 ， 可 以 产生 出 高 权重 的 TF-1DF。 因 此 ，TF-IDF 倾 向 于 过 滤 掉 常见 的 词语 ， 保 留 重要 的 词语 。 


举 个 例子 来 说 ， 假 如 一 篇 文件 的 总 词语 数 是 100 个 ， 而 词语 “ 母 牛 ”出 现 了 3 次 ， 那 么 “ 母 牛 ”一 词 在 该 文件 中 的 词 频 就 是 3/100 = 0.03。 一 个 计算 文件 频率 的 方法 是 测定 有 多 少 份 文件 出 现 过 “ 母 
牛 ”一 词 ， 然 后 除 以 文件 集 里 包含 的 文件 总 数 。 所 以 ， 如 果 “ 母 牛 ” 一 词 在 1000 份 文件 出 现 过 ， 而 文件 总 数 是 10000000 份 的 话 ， 其 逆向 文件 频率 就 是 log (10000000/1000) =4。 最 后 的 TF-1DF 的 分 数 为 
0.03x4= 0.12。 


2.6.2 Hadoop TF-IDF 编 程 思路 
这 里 不 再 给 出 TF-1DF 的 单机 算法 实现 ， 而 直接 给 出 其 Hadoop 算 法 实现 思路 ， 如 图 2-52 所 示 。 
具体 算法 描述 如 下 。 
Job1: 针对 每 个 文件 集中 的 每 个 输入 文件 ， 分 别 统计 其 各 个 单词 出 现 的 次 数 ， 输 出 为 < 单词 w| 文 件 名 f{， 该 单词 w 在 文件 f 中 出 现 的 次 数 f-w-count>。 


Job2: 针对 Job1 的 输出 ， 统 计 文 件 f 中 所 有 单词 的 个 数 (及 一 共有 多 少 个 唯一 的 单词 ) ， 输 出 为 < 单词 w| 文 件 名 f， 该 单词 w 在 文件 f 中 出 现 的 次 数 f-w-count| 文 件 f 中 的 单词 数 f-length >。 


统计 文件 集 docs 中 每 个 文件 
f 中 每 个 单词 w 在 文件 f 中 出 

FUB UK AE w-count, LJ Je x. 
件 f 的 单词 总 数位 w-length 


统计 文件 集 docs 中 
单词 w 出 现 的 文档 数 


{ 一 contalns 一 W 


统计 文件 集 fE FHloe(length/f— 使 用 f-_-w- 


docs 的 个 数 contains—w) count/f-w- 
length 得 到 IDF length 得 到 TF 


使 用 TF*IDF 得 到 每 个 
单词 w 在 f 中 的 权重 


图 2-52 TF-IDF 算 法 流程 


Job3: 先 统计 文件 集 的 文件 个 数 length; 然后 ， 根 据 Job2 的 输出 ， 统 计 每 个 单词 在 所 有 文件 集中 出 现 的 文件 个 数 ， 输 出 < 单词 wv，[ 文 件 名 f1=f1-w-count|lf1-length， 文 件 名 f2=f2-w-count|f2- 
length, ..]» (根据 这 里 的 数据 即 可 得 到 单词 Ww 一共 在 k 个 文件 中 出 现 ) 。 根 据 这 样 的 记录 即 可 求 得 < 单词 w| 文 件 名 f1，f1-w-countlf1-length*log (length/k) >， 单 词 w| 文 件 名 f2,，f2-w-count|f2- 
length*log (length/k) >， 即 : < 单词 w| 文 件 名 f1，tf-idf-f1-w> ， 也 就 是 每 个 单词 在 文件 中 的 权重 TF-1DF。 


其 MapReduce 数 据 流 如 图 2-53 所 示 。 


2.6.3 Hadoop TF-IDF 编 程 实现 


这 里 给 出 的 TF-1DF 算 法 的 测试 数据 使 用 的 是 Avro 格式 的 。 这 里 只 对 Avro 进行 简单 介绍 ， 如 读者 需要 深入 了 解 ， 可 以 上 网 查找 相关 资料 。 
1.Avro 简 介 
Avro 是 一 个 数据 序列 化 的 系统 ， 它 可 以 将 数据 结构 或 对 象 转 化 成 便于 存储 或 传输 的 格式 。Avro 设 计 之 初 就 用 来 支持 数据 密集 型 应 用 ， 适 合 于 远程 或 本 地 大 规模 数据 的 存储 和 交换 。 


Avro 依赖 于 模式 (Schema) 。 通 过 模式 定义 各 种 数据 结构 ， 只 有 确定 了 模式 才能 对 数据 进行 解释 ， 所 以 在 数据 的 序列 化 和 反 序 列 化 之 前 ， 必 须 先 确定 模式 的 结构 。 


原始 数据 thelfile0 -> (1) 
apache|fileO -> (1) 
hadooplfileO -> (1) 


The Apache Hadoop software library is a 
framework that allows for the distributed 
processing of large data sets across clusters of 
computers using simple programming models 


ilfilel -> (1) 
suggest|filel -> (1) 
eliminating|filel -> (1) 


thelfile0 -> (56) 
apache|fileO -> (54) 
hadoop|fileO -> (87) 


I suggest eliminating the statement in III 
that we are proposing to perform the 

market price servises in accordance with 

the terms of the market price service agreement 


ilfilel -> (101) 
suggest|/filel -> (21) 
eliminating|filel -> (13) 


the-> (file0 —561100) 
apache->(file0=54|1100) Hiis ode D 
hadoop->(file0 —87|1100) ded (ha doopl87) 
i-> (filel 2101/2901) et 
suggest  (file1-21/2901) filel -> (1101) 


eliminating -> (file1=13|2901) ER E cin 


"7 (eO mw 


thelfile0- me 


>56/1100*log(totalDoc/d >(file0=56|1 100,file1=89| thelfile0 -> (56/1100) 
ocContain the) AAR apachelfile0 -> (54|1100) 
thelfile1- hadooplfile0 -> (87|1100) 
>89/2901 *log(totalDoc/d 20015 LIOU GII 
ocContain the,...)... ii 


ilfilel -> (101/2901) 
suggest|filel -> (21/2901) 
eliminating|filel -> (13|2901) 


图 2-53 ”TF-IDF 算 法 MapReduce 数 据 流 


Schema 通过 JSON 对 象 表示 。schema 定 义 了 简单 数据 类 型 和 复杂 数据 类 型 ， 其 中 复杂 数据 类 型 包含 不 同属 性 。 通 过 各 种 数据 类 型 用 户 可 以 自 定 义 丰 富 的 数据 结构 。 


Avro 定义 了 几 种 简单 数据 类 型 ， 表 2-10 是 对 其 简单 说 明 。 


表 2-10 ”Avro 简 单数 据 类 型 


类 型 说 HH 不 例 

null Z, AE 

boolean 布尔 值 true/false 

int 32 位 整数 20 

float 12.8 

(SE) 

类 型 说 HH 不 例 
double 12.31892839821 
bytes 


string 字符 串 " apple " 


Avro 定义 了 6 种 复杂 数据 类 型 ， 分 别 是 record、enum、array、map、union 和 fixed， 每 一 种 复杂 数据 类 型 都 具有 独特 的 属性 。 表 2-11 就 record 这 一 种 复杂 数据 类 型 进行 了 简要 说 明 (后 面 也 只 会 用 到 


这 种 数据 类 型 ) 。 


2-11 Avro 复 杂 数 据 类 型 record 


"ys F n "type": "record", 
name JSON F ^ FH ^ 说 明 ix^ record 的 " i ". "p Li t" 
dom name": "LongList", 
名 字 (必需 ) a EEE 
aliases": 


JSON ZF, IRE name ["LinkedLongs"], 


// old name for this 


doc JSON 字符 串 ， 针 对 使 用 该 record "fields" : | 
的 用 户 的 说 明 的 " "nune "Tono" 
name": "value", "type": "long" i, 
aliases // each element has a long 


"name": "next", 


c dass a, | "type": ["null", "LongList"] 
ISON 字符 串 提供 当前 field 的 名 字 | ,Pe “| gList']j 


// optional next element 
(必需 ) l 


] 


描述 该 field 的 类 型 ， 可 以 是 基本 
类 型 或 复杂 类 型 (必需 ) 


人 人 
该 field 别名 


(1) 动手 实践 : Java 基 于 Avro 的 序列 化 和 反 序 列 化 


简单 来 说 ，Avro 就 是 提供 一 个 数据 文件 的 说 明文 档 ， 然 后 可 以 直接 根据 该 说 明文 档 进行 序列 化 和 反 序 列 化 的 一 个 框架 而 已 。 
举 个 例子 ， 比 如 现在 有 一 个 数据 描述 文件 ， 如 代码 清单 2-46 所 示 。 


代码 清单 2-46 ”Avro 描述 文件 


("namespace": "example.avro", 

"type": "record", 

"name": "User", 

"fields": [ 
{ "name" : "name" j "type" : LU string" } ; 
("name": "favorite number", "type": ["int", "null"]], 
("name": "favorite color", "type": ["string", "null"]] 


有 定义 一 个 Java 类 和 该 描述 文件 匹配 ， 如 代码 清单 2-47 所 示 。 


代码 清单 2-47 ” ”Avro 描述 文件 对 应 Java 实 体 类 


User userl = new User(); 
userl.setName ("Alyssa"); 
userl.setFavoriteNumber (256); 
// favorite color Wt 


// 直接 使 用 构造 函数 


User user2 = new User("Ben", 7, "red"); 


// 使 用 builqer 进 行 构造 

User user3 = User.newBuilder () 
.SetName ("Charlie") 
.SetFavoriteColor ("blue") 
.SetFavoriteNumber (null) 
.build(); 


3 ^ 代码 清单 2-46 中 的 name: Uset 或 者 name: name. name: favorite_number 等 ， 不 需要 与 代码 清单 2-47 中 的 名 字 Uset 类 或 者 方法 setrName、setFavotiteColor 名 字 一 模 一 样 ， 只 需 一 一 对 应 即 可 。 


那么 怎么 进行 序列 化 呢 ? 参考 代码 清单 2-48， 即 可 把 用 户 user1、user2、user3 序 列 化 到 本 地 磁盘 的 users.avro 文 件 。 
代码 清单 2-48 ”序列 化 User 


// 序列 化 userl1、user2 and user3 到 硬盘 

DatumWriter«User» userDatumWriter = new SpecificDatumWriter<User> (User.class); 
DataPFileWriter«User» dataFileWriter = new DataFileWriter«User» (userDatumWriter); 
dataFileWriter.create(userl.getSchema(), new File("users.avro")); 
dataPileWriter.append (userl); 
dataPileWriter.append (user2); 
dataFileWriter.append (user3); 
dataFileWriter.close(); 


— 


如 何 进行 有 反 序列 化 呢 ? 参考 代码 清单 2-49， 即 可 把 序列 化 后 的 users.avro 文 件 内 容 读 取出 来 了 ， 并 且 代 码 清单 2-49 中 的 代码 还 把 文件 内 容 也 打印 出 来 了 。 


代码 清单 2-49 ” 反 序 列 化 User 


// 从 磁盘 进行 反 序列 化 

DatumReader«User» userDatumReader = new SpecificDatumReader«User» (User.class); 
DataFileReader«User» dataFileReader = new DataFileReader«User» (file, user-DatumReader); 
User user - null; 

while (dataFileReader.hasNext()) { 

user = dataFileReader.next (user); 

System.out.println (user); 


参考 上 面 的 示例 ， 进 行 下 面 的 实验 。 

实验 步骤 如 下 : 

1) 新 建 Java 工 程 ， 引 入 avro-1.7.4.jar、avro-tools-1.7.4Jjar ( 非 必需 ) . jackson-core-asl-1.9.13.jar, jackson-mapper-asl-1.9.13.jar, junit-4.11.jar, hamcrest-core-1.3.jar, 
2) 参考 代码 清单 2-46、 代 码 清单 2-47、 代 码 清单 2-48、 代 码 清 单 2-49， 缩 写 对 应 程序 实现 ， 运 行程 序 查看 结果 。 

(2) 动手 实践 : Hadoop 基 于 Avro 的 反 序 列 化 


这 里 增加 一 点 Hadoop Job Counter 的 知识 ，Hadoop Job Counter 可 以 在 Hadoop Map-Reduce 程 序 运行 的 过 程 中 定义 全 局 计数 器 ， 对 一 些 必 要 的 参数 进行 统计 ， 通 过 doc api 查 看 该 用 法 ， 如 图 2- 
54 所 示 。 


org.apacne.nadoop.mapred. 


org.apache hadoop.mapred lib . 
H —————————— ———— 一 
org apache hadoop mapred lib a Overview Package WYE use Tree Deprecated 
PREV CLASS NEXT CLASS 


org.apache.hadoop.ma red.lib.db E SUMMARY: NESTED | ENUM CONSTANTS | FIELD | METHOD 
org.apache.hadoop.mapred.pipes — — 
org.apache.hadoop.mapred.proto 

org.apache.hadoop.mapred tools 

org.apache.hadoop.mapreduce org. apache. hadoop. mapreduce 


org.apache.hadoop.mapreduce lib. Enum TaskCounter 


org.apache.hadoop.mapreduce.lib.. ™ 


: lava lang.Ob]ject 


" L java. lang. EnumcTaskCownter? 
inputr ormat L_ org. apache. hadoop. napreduce. TaskCount er 


All Implemented Interfaces: 
serializable, Comparable«TaskCounter» 


Mapper 
Markablelterator 


OutputCommitter (àüInterfaceAÀudience.Public 
(üInterfaceStability. Evolving 

OutputFormat 

- public enum TaskCounter 


Partitioner extends EnumCTaskCounter»? 
ueueAcIsinfo Mu 


Queuelnfo 
RecordReader 


RecordWriter Enum Constant Summary 
Reducer 

JaskAttemptlD COMNBINE INPUT RECORDS 
TaskCompletionEvent 

TaskID 

TaskTrackerlnfo 

Enums 

JobCounter COMMITTED HEAP BYTES 

JobPriority 

QueueState 


TaskCompletionE vent.Status CPU MILLISECONDS 
TaskCounter 


En FAILED SHUELE O O oo 
AILED SHUPFE 


图 2-54 JobCounter DOC API 


在 Java 代 码 中 遍历 所 有 Hadoop MapReduce Counter， 可 参考 代码 清单 2-50。 


代码 清单 2-50 ”Java 代码 获取 Hadoop MapReduce Counter 


Counters counter = job.getCounters(); 
Iterator«CounterGroup» icg- counter.iterator(); 
while (icg.hasNext () ) { 

System.out.println(icg.next()); 

CounterGroup counterGroup = icg.next(); 

System.out.println (counterGroup.getName ()); 
Iterator«org.apache.hadoop.mapreduce.Counter»counters = counterGroup.iterator(); 
while (counters.hasNext () ) { 

Counter c = counters.next(); 
System.out.println (c.getName () *", "*c.getValue()); 


实验 步骤 如 下 : 


1) 拷贝 avro-mapred-1.7.4-hadoop2.jar 到 Hadoop 集 群 lib 目 录 ， 上 传 hadoop/data/mann.avro 数 据 到 HDFs。 


2) 


3) 


2Job1: 统计 单个 文件 某 个 单词 个 数 


设置 读 取 Avro 文 件 的 FilelnputFormat 为 AvroKeylnputFormat。 


参考 示例 程序 2.5_004_avro_mr， 读 懂 程 序 代码 ， 运 行程 序 ， 查 看 结果 。 


针对 2.6.2 节 分 析 的 Hadoop MapReduce 实 现 TF-IDF 的 流程 中 的 Job1， 分 析 如 下 。 


r1 
^N 


驱动 程序 Driver: 
所 示 。 


代码 清单 2-51 


// Jobl 计算 每 个 文件 中 单词 
Job jobl = Job.get 


需要 设置 Mapper 以 及 Reducer， 需 要 注意 这 里 的 输入 需要 使 用 AvroKeylnputFormat， 


个 数 


Instance (getConf 


jobl.setJarByClass (getClass ()); 
Configuration confl = 
FilelInputFormat.setInputPaths 


out.getFileSys! 


TF-IDF Job1 Driver 类 示例 


0, 


jobl.getConfigura 


Fi 

jobl.set 
jobl.setReduc 
jobl.set 
jobl.setOutpu 
jobl.setOutpu 
jobl.setOutpu 
int ret 


Mapper 要 做 的 工作 只 是 读 取 Avro 数 据 ， 然 后 针对 数据 分 隔 各 个 单词 (注意 这 里 有 些 单词 是 不 需 


ileOutputFormat.setOutputPa 


tMapperClass (WordCoun 
erClass (IntSumReducer.c] 


InputFormatClass (AvroKey] 
cFormatClass (SequenceFi] 


tValueClass (] 


th(jobl, ou! 


(jobl, in); 
tem(confl).delete(out, true); 


tion(); 


t); 


cPerDocumen 


tcKeyClass (Text.class); 


cMapper.class); 


lass); 


[nputFormat.class); 
leOutputFormat.class); 


[ntWritable.class); 


= jobl.waitForCompletion (true) 


? 0 


$ xp 


"Word Count per document"); 


1) 读 取 Avro 格 式 数 据 ， 获 取 文 件 名 和 文件 内 容 (类 似 Java 单 机 程序 ) ， 如 代码 清单 2-52 所 示 。 


代码 清单 2-52 


QOverride 


protected void map (AvroKey«GenericRecord» key, NullWri 
Mapper«AvroKey«Genericl 


thr 


读 取 Avro 数 据 示 例 


Record», NullWritable, 


table value, 
Text, 


yteBuffer co 
tring conten 


CQ) UJ Co 


ows IOException, InterruptedException { 
tring name = key.datum().get (Util ] 


ELD FIL 


ENAME) .toString (); 


ntentsByt 
Es = 


(ByteBu 


er) key.datum().get(Utils.F 


IntWritable>.Context context) 


ELD CONTI 


new String (contentsBy 


te.array()); 


2) 分 隔 文 件 的 内 容 ， 这 里 需要 注意 不 用 统计 的 单词 ， 具 体 单词 如 代码 清单 2-53 所 示 。 


代码 清单 2-53 


需要 忽略 的 单词 


private static Set«String» STOPWORDS; 


static { 


STOPWORDS = new HashSet«String»() { 


{ 


}; 


T) . 


, 


分 隔 采用 Match 类 正则 进行 分 隔 ， 如 代码 清单 2-54 所 示 。 


代码 清单 2-54 Match 类 分 隔 文 本 内 容 到 单词 


// 定 义 Pattern 


Final 


Pattern 


private static 
// map 函 数 


while 


(matcher.find()) { 
cringBuil 


VORD PATTI 


- CD Cn 


LE 


matchedKey.contai 


tring matchedKey = 
(!Character.isLetter (matchedKey 
Character .isDigit (matchedKey. 
| STOPWORDS. con 
E) ) 


charAt 


ns (UNDERSCOR 


continue; 


) 


(00) 


{ 


tains (matchedKey) 


ERN = Pattern.compile ("NNwt"); 


der valueBuilder - new StringBuilder(); 
matcher.group().toLowerCase(); 


.charAt(0)) || 


ENTS); 


进行 统计 的 ， 可 以 直接 忽略 ) 


这 里 考虑 到 编程 方便 以 及 效率 ， 输 出 使 用 SequenceFileOutput-Format， 如 代码 清单 2-51 


。 Mapper 的 功能 描述 如 下 : 


3) 只 须 输出 单词 、 文 件 名 和 计数 1 即 可 ， 如 代码 清单 2-55 所 示 。 


代码 清单 2-55 TF-IDF Job1 Mapper 类 输出 示例 


valueBuilder.app 


end (matchedKey) ; 


valueBuilder.append (SEPARATOR) ; 


valueBuilder.append (name); 


FileWo 


// 


rd.set (valueBuilder.toString()); 


Xkey,value» -> «word|file , 1» 


contex 


Reducer 类 直接 采用 Hadoop 内 部 类 IntSumReducer 即 可 ， 即 把 相同 的 key 的 所 有 value 值 全 部 加 起 来 ， 其 输入 输出 描述 如 表 2-12 所 示 。 


t.write(fileWord, one); 


2-32 TF-IDF Job1 Reducetr 输 入 输出 描述 


// Reducer 


£f An: 
// out: 


«key,value-» 


«key,value» -> «word|file, 


-> «wordlfile, 


i es oe os 
1+1+°+1> 


3Job2: 统计 某 个 文件 所 有 单词 个 数 


Job2 的 Driver 驱 动 程序 是 统计 某 个 文件 的 所 有 单词 个 数 ， 输 入 是 Job1 的 输出 ， 所 以 输入 格式 为 SequenceFilelnputFormat， 输 出 格式 也 设 成 SequenceFileOutputFormat,， 方便 Job3 的 读 取 ， 其 设置 


参考 代码 清单 2-56。 


代码 清单 2-56 Job2 Driver 驱 动 类 示例 代码 


Job job2 = Job.getInstance (getConf(), 


job2.setJarl 


ByClass (getClass ()); 


"DocumentWordCount"); 


Configuration conf2 = job2.getConfiguration(); 


FilelInputFormat.setlInputPaths(job2, in); 


out.getFileSystem(conf2).delete(out, true); 


FileOutputFormat.setOutputPa 


tReducerClass (Documen 


ob2.setiInputFormatClass (Seq 


ob2.setOutpu 


job2.setOutpu 


job2.setOutpu 


uenceFilel 


th(job2, out); 


tMapperClass (DocumentWordaCountMapper.class); 
tWordCountReducer.class); 


cKeyClass (Text.class); 
tValueClass (Text.class); 


ret = job2.waitForCompletion(true) ? 0 : -1; 


[nputFormat.class); 
cFormatClass (SequenceFileOutputFormat.class); 


Mapper 类 只 需 把 Job1 的 输出 的 键 值 对 进行 重 构 即 可 ， 这 里 即 可 以 利用 MapReduce 按 照 key 进 行 分 组 的 特性 ， 输 出 < 文件 名 ， 文 件 中 的 单词 | 文件 中 单词 的 个 数 > 这 样 的 键 值 对 ， 如 代码 清单 2-57 所 示 。 


代码 清单 2-57 Job2 Mapper map 函数 示例 代码 


public void map (Text key, IntWritable value, Context context) throws IOException, 
int wordAndDocCounter - value.get(); 
// wordAndDoc = word|filename 
String[] wordAndDoc = StringUtils 


.Split(key.toString(), 


outKey.set (wordAndDoc[1]); 


outValue.set 


(wordAndDoc[0] + SEPA 


// «key,value» -> «filename, word| wordCount» 


context.write(outKey, outValue); 


在 Reucer 中 利用 分 组 的 特性 (每 个 键 值 对 按照 键 进行 分 组 ， 所 以 


代码 清单 2-58 Job2 Reducer reduce 函 数 示例 代码 


// «filename, [word| wordCount, word|wordCoun 


protected void 


int sumOfWordsInDocument - 0; 


Map«String, 


for (Text val 


: values) { 


// wordCounter = word| wordCount 


String[] wordCounter = S 
tempCounter.put (wordCounter [0], 
sumOfWordsInDocument += Integer.parseInt (word3Counter[1]); 


Integer» tempCounter = new HashMap«String, 


AB 
Zu 


Interrupted 


Exception { 


SEPARATOR) ; 


RATOR + wordAndDocCounter); 


到 每 个 文件 的 所 有 单词 作为 


t, http://www.hzcourse.com/resource/readi 


Q 


Exception, 


个 列表 ) ， 统 计 每 个 文件 的 所 有 单词 个 数 ， 如 代码 清单 2-58 所 示 。 


Book?path-/openreso 


urces/teach ebook/uncompressed/16328/0F 


BPS/Text/...]» 


Interrupted 


Exception { 


reduce (Text key, Iterable<Text> values, Context context) throws 


Integer>(); 


tringUtil 


For (String wordKey : 


outKey.set 


outValue.se 
// «key,value» -> <word | 


tempCounter.keySet()) ( 


(wordKey + SEPARATOR + key.toString()); 


context.write(outKey, outValue); 


) 


4Job3: 计算 单个 


文件 某 个 单词 的 TF-IDF 


s.split(val.toString(), SEPARATOR); 
Integer.valueOf (wordCounter[1])); 


t(tempCounter.get(wordKey) + SEPARATOR + sumOfWordsInDocument); 
filename , wordCount|sumOfWordsInDoc» 


Job3 综 合 前 面 两 个 的 输出 结构 ， 得 到 最 终 每 个 文件 每 个 单词 的 TF-IDF 值 。Driver 需 要 配置 输入 输出 以 及 格式 ， 这 里 注意 需要 把 Job1 统 计 的 总 文件 个 数 传 入 Job3 中 ， 这 里 为 了 便于 观察 ， 输 出 格式 使 用 默 
认 值 TextFileOutputFormat， 其 示例 代码 如 代码 清单 2-59 所 示 。 


代码 清单 2-59 Job3 Driver 驱 动 类 示例 代码 


Job job3 = Job.getInstance (getConf(), "DocumentCountAndTfIdf"); 


job3.setJarByClass (getClass ()); 


Configuration conf3 = job3.getConfiguration(); 


FileInputFormat.setInputPaths(job3, in); 


out.getFileSystem(conf3).delete(out, true); 


FileOutputFormat.setOutputPath(job3, out); 


conf3.setInt("totalDocs", (int) 


totalDocs); 


job3.setMapperClass (TermDocumentCountMapper.class); 


job3.setReducerClass (TflIdfReducer.class); 
job3.setiInputFormatClass (SequenceFileInputFormat.class); 
job3.setOutputFormatClass (SequenceFileOutputFormat.class); 
job3.setOutputKeyClass (Text.class); 
job3.setOutputValueClass (Text.class); 


ret = job3.waitForCompletion(true) ? 0 : -1; 


Mapper 类 根据 Job2 的 输入 进行 重 构 ， 再 次 使 用 word 作 为 Key， 使 用 filename、word-Count、sumoOfWordslnDoc 作 为 value， 如 代码 清单 2-60 所 示 。 


代码 清单 2-60 Job3 Mapper 类 map 函 数 示例 代码 


// <key,value> -> «word|filename , wordCount | sumOfWordsīInDoc> 
public void map (Text key, Text value, Context context) throws IOException, InterruptedException { 
// worddAndDoc = word|filename 

String[] wordAndDoc = StringUtils.split(key.toString(), SEPARATOR); 
outKey.set (wordAndDoc [0]); 
outValue.set(wordAndDoc[1] + DOC SEPARATOR + value.toString()); 
// «key,value» -> «word, filename-wordCount | sumOfWordsInDoc» 
context.write(outKey, outValue); 


Reducer 根 据 Mapper 的 输出 ， 同 时 利用 相同 的 key 聚 合 的 特性 ， 即 可 统计 出 每 个 单词 在 多 少 个 文件 中 存在 ; 在 所 有 需要 的 参数 计算 完成 后 ， 即 可 利用 TF-IDF 的 公式 进行 最 后 的 计算 ， 如 代码 清单 2-61 所 


小。 


代码 清单 2-61 Job3 Reducer 类 reduce 函 数 示例 代码 


// <key,value> -> «word, [filename-wordCount |sumOfWordsInDoc, 
filename-wordCount | sumOfWordsInDoc,http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16328/O0EBPS/Text/...]» 
protected void reduce (Text key, Iterable«Text» values, Context context) throws IOException, InterruptedException { 

int totalDocs = context.getConfiguration().getInt("totalDocs", 0); 


int totalDocsForWord - 0; 
Map«String, String» tempFrequencies = new HashMap«String, String»(); 
for (Text value : values) { 
// documentAndFrequencies = filename, wordCount sumOfWordsInDoc 
String[] documentAndFrequencies = StringUtils.split(value.toString(), DOC SEPARATOR); 
totalDocsForWord--;// the number of files which contains word E 
// tempFrequencies = (filename, wordCount | sumOfWordsInDoc) 
tempFrequencies.put (documentAndFrequencies[0], documentAndFrequencies[1]); 


} 
for (String document : tempFrequencies.keySet()) ( 
// wordFrequencyAndTotalWords = wordCount, sumOfWordsInDoc 
String[] wordFrequencyAndTotalWords = StringUtils.split (tempFrequencies.get (document), SEPARATOR); 


// TF = wordCount / sumOfWordsInDoc 
double tf = Double.valueOf (wordFrequencyAndTotalWords[0]) / Double.valueOf (wordFrequencyAndTotalWords [1]); 


// IDF 
double idf = (double) totalDocs / totalDocsForWord; 


double tfIdf = tf * Math.logl10 (idf); 


L4 


— 


outKey.set(key + SEPARATOR + document); 
outValue.set(DF.format (tfIdf)); 
// «key,value» -> «word|filename , tfIdf> 
context.write(outKey, outValue); 


— 
~ 


(1) 动手 实践 : Hadoop 实 现 TF-IDF 算 法 

理解 上 面 Hadoop MapReduce 框 架 实现 TF-IDF 算 法 的 原理 ， 结 合 部 分 示例 代码 ， 完 成 该 动手 实践 。 

实验 步骤 如 下 : 

1) 参考 “动手 实践 : Hadoop 基 于 Avro 的 反 序 列 化 ”内 容 ， 建 立 程序 开发 环境 (主要 是 Avro 相关 开发 包 ) ; 

2) 参考 工程 2.5 005 tf-idf 示 例 代 码 ， 结 合 前 面 的 分 析 ， 理 解 代码 功 能 ; 

3) 修复 工程 功能 (TODO 提 示 ) ， 运 行程 序 ; 

4) 查看 输出 ， 对 结果 进行 解释 。 

(2) 思 

请 读者 思考 ， 针 对 Hadoop MapReduce 实 现 TF-IDF 算 法 是 否 还 有 优化 的 空间 ? 如 果 有 优化 的 空间 ， 怎 么 做 呢 ? 可 以 考虑 下 面 几 点 : 
1) 是 否 可 以 缩减 Job 的 个 数 ” (提示 : 输出 多 目录 、 自 定义 键 值 对 ) 


2) 如 果 使 用 自 定义 键 值 对 技术 ， 应 该 如 何 修改 程序 ? 


2.7 本章 小 结 


本 章 首先 介绍 了 Hadoop 的 基本 概念 、 原 理 以 及 Hadoop 生 态 系 统 各 个 框架 。 接 着 ， 介 绍 了 Hadoop 的 安装 配置 以 及 开发 环境 [DE 配置。 在 此 基础 上 介绍 了 Hadoop 常 用 的 集群 命令 、Hadoop MapReduce 编 程 开 
发 原理 ， 针 对 MapReduce 编 程 开发 ， 详 细 介 绍 了 Map-Reduce 原 理 、 单 词 计数 源码 分 析 ， 结 合 源码 分 析 了 MapReduce 原 理 。 在 本 章 的 最 后 两 个 小 节 ， 分 别 介 绍 了 数据 挖掘 中 的 经 典 算法 : K-Means 算 法 、TF-IDF 
算法 ， 并 针对 其 Hadoop MapReduce 实 现 进行 了 详细 人 分析。 同时， 本章 中 包含 大 量 动手 实践 章节 ， 这 些 动 手 实践 章节 要 求 读者 自行 完成 (部 分 有 示例 代码 参考 ) ， 通 过 这 些 动手 实践 环节 ， 可 以 加 深 读 者 对 
Hadoop, Hadoop HDFS, Hadoop MapReduce 的 理解 ， 同 时 对 如 何 针 对 经 典 算法 或 者 单机 算法 使 用 Hadoop MapReduce 模 式 来 实现 肯定 会 有 自己 的 心得 体会 。 


相信 通过 本 章 的 学 习 ， 读 者 不 仅 可 以 对 Hadoop、Hadoop MapReduce 的 原理 有 更 深入 的 了 解 ， 而 且 对 开发 Hadoop MapReduce 程 序 也 可 以 说 初赛 门 径 了 。 


第 3 章 ”大 数据 查询 一 Hive 


Hive 是 基于 Hadoop 的 一 个 数据 仓库 工具 ， 可 以 将 结构 化 的 数据 文件 映射 为 一 张 数据 库 表 ， 并 提供 简单 的 类 SQL 查 询 功 能 ， 主 要 用 于 对 大 规模 数据 的 提取 转化 加 载 (ETL) 。 其 优点 是 学 习 成 本 低 ， 可 以 


通过 类 SQL 语句 快速 实现 简单 的 MapReduce 统 计 ， 不 必 开 发 专门 的 MapReduce 应 用 ， 十 分 适合 数据 仓库 的 统计 分 析 。 


接 下 来 ， 本 章 将 详细 介绍 Hive 的 相关 知识 。 


3.1 “Hive 概 述 

从 早期 的 互联 网 主流 大 爆发 开始 ， 主 要 的 搜索 引擎 公司 和 电子 商务 公司 就 一 直 在 跟 不 断 增长 的 数据 进行 较量 。 同 时 ， 不 断 增 长 的 数据 所 带 来 的 价值 也 不 言 而 喻 ， 但 要 让 于 藏 在 海量 数据 中 的 价值 高 效 地 
体现 出 来 ， 必 然 涉及 海量 数据 的 计算 ， 而 传统 的 数据 处 理 方 式 面 对 海量 数据 的 挖掘 计算 可 谓 “ 心 有 余 而 力 不 足 ”。 

因此 ，Hadoop 生 态 系统 应 运 而 生 ，Hadoop 实 现 了 一 个 特别 的 计算 模型 一 Map-Reduce， 它 可 以 实现 分 布 式 处 理 ， 而 数据 的 存储 依赖 于 Hadoop 分 布 式 文件 系统 (HDFS) 。 


不 过 ,仍然 存在 一 个 挑战 ， 就 是 用 户 如 何 从 一 个 现 有 的 数据 基础 架构 转移 到 Hadoop 上 ， 而 这 个 基础 架构 是 基于 传统 关系 型 数据 库 和 结构 化 查询 语句 (SQL) 的 。 对 于 大 量 的 SQL 用 户 (包括 专业 数据 库 
设计 师 、 管 理 员 及 那些 使 用 SQL 从 数据 仓库 中 抽取 信息 的 临时 用 户 ) 来 说 ， 这 个 问题 又 将 如 何 解决 呢 ? 


Hive 的 出 现 正好 可 以 解决 这 一 系列 问题 ，Hive 最 初 是 由 Facebook 设 计 的 ， 是 基于 Hadoop 的 一 个 数据 仓库 工具 ， 可 以 将 结构 化 的 数据 文件 映射 为 一 张 数据 库 表 ， 并 提供 简单 的 类 SQL 查询 语言 ( 称 为 
HiveQL) 。 底 层 将 HiveQL 语 句 转换 为 MapReduce 任 务 运行 ， 它 允许 熟悉 SQL 的 用 户 基于 Hadoop 框 架 分 析 数 据 。 其 优点 是 学 习 成 本 低 ， 对 于 简单 的 统计 分 析 ， 不 必 开 发 专门 的 MapReduce 程 序 ， 直 接 通 
过 HiveQL 即 可 实现 。 


3.1.1 Hive 体 系 架构 


如 图 3-1 所 示 ，Hive 体 系 架构 可 以 分 为 4 部 分 。 


JDBC/ODBC ||JDBC/ODBC 


MetaStore 


Hadoop 集 群 


voacivianage 


图 3-1 Hive 体 系 架 构 


: 用 户 接 口 。 用 户 与 Hive 交 互 主要 有 3 种 方式 : CLI、Client 和 WUI。CLI 方 式 主要 用 于 Linux 平 台 命 令 行 查询 。WUI 方 式 是 Hive 的 Web 界 面 访 问 方式 ， 通 过 浏览 器 访问 Hive。Clieht 是 Hive 的 客户 端 ， 连 接 至 


远程 服务 HiveSetvet2 。 


. 元 数据 存储 。Hive 将 元 数据 存储 在 数据 库 中 ， 如 MySQL、Derby 等 ， 其 中 元 数据 存储 依赖 于 Metastore DB 服务 。Hive 中 的 元 数据 包括 表 名 、 表 的 列 和 分 区 及 其 属性 、 表 的 属性 (是 否 为 外 部 表 ) 、 表 的 
数据 所 在 目录 等 。 


* 解析 器 、 编 译 器 、 优 化 器 。 完 成 HQL 查 询 语句 从 词法 分 析 、 语 法 分 析 、 编 译 、 优 化 以 及 查询 计划 的 生成 ， 随 后 由 MapReduce 调 用 执行 。 


* 数据 存储 。Hive 中 表 的 数据 存储 在 HDFS 中 ， 包 含 表 (Table) 、 外 部 表 (External Table) ~ AE (Partition) ~ 4& (Bucket) 等 数据 模型 ， 其 中 数据 库 、 分 区 、 表 都 对 应 HDFS 上 的 某 个 目录 ，Hive 表 里 


的 数据 存储 在 表 目 录 下 面 。 


HiveQL 执 行 过 程 : 用 户 通过 CLI、JDBC/ODBC 或 WUI 接 口 提交 HiveQL 到 Hive-Server2 服 务 ， 通 过 解释 器 、 编 译 器 、 优 化 器 完成 HiveQL 查 询 语句 从 词法 分 析 、 语 法 分 析 、 编 译 、 优 化 以 及 查询 计划 的 生 
成 ， 将 元 数据 存储 到 数据 库 中 ， 执 行 器 完成 查询 计划 的 处 理 ， 由 MapReduce 调 用 执行 。 


1. 用 户 接口 

Hive 对 外 提供 了 3 种 服务 模式 ， 即 CLI (Hive 命 令 行 模式 ) . Client (Hive 的 远程 服务 ) 和 WUI (Hive 的 Web 模 式 ) 。 
(1) Hive 命 令 行 模式 

Hive 命 令 行 模式 有 两 种 启动 方式 。 

1) 进入 Hive 安 装 目录 bin 目 录 下 ， 执 行 命令 : ./hiv。 

2) 配置 Hive 环 境 变 量 ， 直 接 执行 命令 : hive--service cli 或 hive。 


Hive 命 令 行 模式 用 于 Linux 平 台 命 令 行 查 询 ， 碍 询 语句 跟 MySQL 查 询 语句 类 似 ， 启 动 之 后 Jps 查 看 发 现 有 RunJar 进 程 ， 启 动 如 图 3-2 所 示 。 


[rootiàmaster confl]# hive 


hive» 


[rootiümaster ~]# jps 


3904 Jps 

3703 |RunJar 

2993 NameNode 

3214 ResourceManager 


图 3-2 ”Hive 命 令 行 模式 


(2) Hive 的 Web 模 式 


Hive Web 界 面 的 启动 执行 命令 : hive-service hwi。 启 动 之 后 ， 通 过 浏览 器 访问 http://master: 9999/hwi/ (其 中 ，master 是 hive 服 务 所 在 机 器 的 机 器 名 ，9999 是 其 默认 端口 ) ， 浏 览 器 运行 效果 如 
图 3-3 所 示 。 


Hive Web Interface 


USER Change User Info 
会 Home 
lli Authorize 


DATABASE 


Q Browse Schema 


SESSIONS 
8 Create Session 


Q List Sessions 


DIAGNOSTICS 


© Diagnostics 


E3-3 Hive 的 Web 模 式 
(3) Hive 的 远程 服务 


远程 服务 (端口 号 默认 10000) 启动 执行 命令 : nohup hive--service hiveserver2&。 其 中 ，“& ”是 Linux 命 令 ， 表 示 在 后 台 运 行 。 通 过 JDBC 访 问 Hive 就 是 使 用 这 种 启动 方式 ，Hive 的 JDBC 连 接 和 
MySQL 类 似 ， 其 代码 如 代码 清单 3-1 所 示 。 


代码 清单 3-1 _JDBC 连 接 Hive 


// 创建 emp 表 
import java.sql.Connection; 
import java.sql.DriverManager; 
import java.sql.PreparedStatement; 
import java.sql.ResultSet; 
public class Test ( 
public static void main(String[] args) { 
Class.forName ("org.apache.hive.jdbc.HiveDriver"); 
Connection conn-DriverManager.getConnection 
("jdbc:hive2://192.168.0.130:10000/testhive","root",""); 
String sql = "create table emp(empno int,ename string,job string) 
row format delimited fields terminated by ','"; 
PreparedStatement ps -conn.prepareStatement (sql); 
ps.execute(); 


) 
} 


2.Hive 元 数据 库 


Hive 将 元 数据 存储 在 RDBMS 中 ， 一 般 常用 MySQL 和 Derby。Hive 默 认 将 元 信息 存储 在 内 谋 的 Derby 中 。 如 果 使 用 默认 的 数据 库 Derby， 那 么 只 能 允许 一 个 会 话 连 接 ， 只 适合 简单 的 测试 。 在 实际 的 生产 
环境 中 ， 为 了 支持 多 用 户 会 话 ， 则 需要 一 个 独立 的 元 数据 库 ， 使 用 MySQL 作 为 元 数据 库 ， 可 以 满足 此 要 求 ， 同 时 Hive 内 部 对 MySQL 提 供 了 很 好 的 支持 ， 所 以 生成 环境 一 般 情 况 下 都 是 配置 MySQL 数 据 库 作 
为 Hive 的 元 数据 存储 库 。 


Hive 在 启动 时 会 加 载 两 个 配置 文件 : 默认 配置 文件 hive-default.xmlI 及 用 户 自 定义 文件 hive-site.xml。 当 hive-site.xml 中 的 配置 参数 值 与 hive-default.xml 中 不 一 致 时 ， 以 用 户 自 定义 的 为 准 。 其 中 
hive-default.xml 是 hive-default.xml.template 的 一 个 副本 ，hive-site.xml 是 用 户 自 定义 的 ， 其 格式 与 hive-default.xm| 类 似 。 


Hive 启 动 之 后 会 在 元 数据 库 中 创建 元 数据 字典 信息 表 ，Hive 的 元 数据 字典 信息 如 表 3-1 所 示 。 


表 3-1 Hive 元 数据 字典 信息 列表 


R 名 
BUCKETING_COLS 


COLUMNS Hive 表 字 上 段 信 息 (FRR, TRA, FRN, FR 
DBS Hive 中 所 有 数据 库 的 基本 信息 

NUCLEUS TABLES 元 数据 表 和 hive 中 class 类 的 对 应 关系 

PARTITIONS Hive 表 分 区 信息 (创建 时 间 ， 具 体 的 分 区 ) 

PARTITION KEYS Hive 分 区 表 分 区 键 (名 称 ， 类 型 comment, JF) 
PARTITION KEY VALS Hive 表 分 区 名 【 键 值 ， 序 号 ) 

SDS 所 有 Hive 表 、 表 分 区 所 对 应 的 HDFS 数据 目录 和 数据 格式 


SEQUENCE TABLE 


说 明 
Hive Æ CLUSTERED BY 字段 信息 


Hive 对 象 的 下 一 个 可 用 ID 


(字段 名 ， 字 段 序 号 ) 


3k ) 
k 名 说 BH 
SERDES Hive 表 序 列 化 反 序 列 化 使 用 的 类 库 信 息 


SERDE PARAMS 
SORT COLS 
TABLE PARAMS 
TBLS 


HAVIEBFEAMERB RS. MÍTT . 
Hive Æ SORTED BY 字段 信息 (FRA, 
表 级 属性 ， 如 是 否 外 部 表 、 表 注释 等 
所 有 Hive 表 的 基本 信息 


sort 类 型 ， 


列 分 隔 符 、NULL 的 表示 字符 等 
字段 序号 ) 


根据 前 面 的 介绍 ， 已 知 HiveQL 语 句 执行 过 程 ， 结 合 元 数据 字典 信息 列表 ，Hive 创 建 表 的 整个 过 程 可 如 下 理解 。 


用 户 提交 HiveQL 语 句 一 对 其 进行 解析 一 分 解 为 表 、 字 段 、 分 区 等 Hive 对 象 。 根 据 解 析 到 的 信息 构建 对 应 的 表 、 字 段 、 分 区 等 对 象 ， 从 SEQUENCE _ TABLE 中 获取 对 象 的 最 新 ID ， 与 构建 对 象 信 息 (名 


称 、 类 型 等 ) 一 同 通过 DAO 方 法 写 入 元 数据 表 中 ， 成 功 后 将 SEQUENCE _ TABLE 中 对 应 的 最 新 ID+ 5。 


实际 上 常见 的 RDBMS 都 是 通过 这 种 方法 进行 组 织 的 ， 其 系统 表 中 和 Hive 元 数据 一 样 显示 了 这 些 ID 信 息 ， 而 Oracle 等 商业 的 系统 则 隐藏 了 这 些 具体 的 ID。 通 过 这 些 元 数据 可 以 很 容易 读 到 数据 ， 如 创建 


一 个 表 的 数据 字典 信息 、 导 出 建 表 语句 等 。 
3.Hive 的 数据 存储 


首先 ，Hive 没 有 专门 的 数据 存储 格式 ， 也 没有 为 数据 建立 索引 ， 用 户 可 以 自由 地 组 织 Hive 中 的 表 ， 只 需要 在 创建 表 时 说 明 Hive 数 据 中 的 列 分 隔 符 和 行 分 隔 符 ，Hive 就 可 以 解析 数据 。 其 次 ，Hive 中 所 有 
的 数据 都 存储 在 HDFS 中 ，Hive 的 数据 模型 包括 表 (Table) 、 外 部 表 (External Table) 、 分 区 (Partition) 、 桶 (Bucket) 。 


Hive 中 的 表 和 数据库 中 的 Table 在 概念 上 类 似 ， 每 一 个 Table 在 HDFS 中 都 有 一 个 相应 的 目录 存储 数据 。 例 如 ， 一 个 表 people， 它 在 HDFS 中 的 路 径 为 /user/hive/warehouse/people, 其 
中 /userhive/warehouse 是 在 hive-site.xml 中 由 参数 hive.metastore.wWarehouse.dir 指 定 的 数据 仓库 的 目录 ， 所 有 的 Table 数 据 (不 包括 外 部 表 ) 都 保存 在 这 个 目录 中 。 


外 部 表 和 表 主 要 区 别 是 对 数据 的 管理 。External Table 数 据 存 储 在 建 表 时 由 Location 指 定 的 目录 中 ， 且 当 删 除 External Table 时 ， 只 删除 表 的 结构 ， 而 不 删除 数据 。 


分 区 对 应 于 数据 中 Partition 列 的 密集 索引 ， 但 是 Hive 中 Partition 的 组 织 方式 与 数据 库 中 的 不 同 。 在 Hive 中 ， 表 中 的 一 个 Partition 对 应 于 表 下 的 一 个 目录 ， 所 有 Partition 的 数据 都 存在 对 应 的 目录 中 。 例 
如 ，people 表 包含 city 和 work 两 个 Partition。 


- 对 应 于 city=Beijing，wotk=teacher 的 HDFS 子 目录 为 : 
/user/hive/warehouse/people/city=Beijing/work=teacher 
- STRE eity-Shanghai, work-clerk4g HDFS-f- B ÑA: 
/user/hive/warehouse/people/city- Shanghai/work- clerk 
桶 对 指定 列 计 算 hash ， 根 据 hash 值 切 分 数据 ， 目 的 是 并 行 ， 每 个 Bucket 对 应 一 个 文件 。 例 如 将 salary 列 分 散 至 32 个 bucket， 那 么 首先 需要 对 salary 列 计算 hash 值 。 
- hash 值 为 0 的 HDFS 目录 为 : 

/user/hive/warehouse/people/city- Beijing/work-teacher/part-00000 

: hash 值 不 为 0 的 HDFS 目 录 为 : 

/user/hive/warehouse/people/city=Shanghai/work=clerk/part-00020 

4.Hive 解 释 器 


这 些 字 符 串 可 能 是 一 条 DDL、DML 或 查询 语句 。 编 译 器 将 字符 串 转化 为 策略 (plan) 。 策 略 由 元 数据 操作 和 HDFS 操 作 组 成 ， 元 数据 操作 只 包含 
策略 由 MapReduce 任 务 中 的 具有 方向 的 非 循环 图 (directedacyclic graph, DAG) 组 成 ， 具 体 流程 如 下 。 


Driver 调 用 解释 器 (Compiler) 处 理 HiveQL 字 符 串 ， 
DDL 语 句 ，HDFs 操 作 只 包含 LOAD 语 句 。 对 插入 和 查询 而 言 ， 


` 解析 器 : 将 查询 字符 串 转 换 为 解析 树 表 达 式 。 


. 语义 分 析 器 : 将 解析 树 表 达 式 转换 为 基于 块 的 内 部 查询 表达 式 ， 将 输入 表 的 模式 信息 从 metastote 中 进行 恢复 。 用 这 些 信 息 验 证 列 名 ， 展 开 SELECTY 以 及 类 型 检查 。 


逻辑 策略 生成 器 : 将 内 部 查询 表达 式 转 换 为 逻辑 策略 ， 这 些 策 


$ 


由 逻辑 操作 树 组 成 。 
优化 器 : 通过 逻辑 策略 构造 多 途径 并 以 不 同方 式 重 写 。 优 化 器 的 功能 如 下 。 

1) 将 多 multiple join 合并 为 一 个 multi-way join ; 

2) 对 join、group-by 和 自 定义 的 map-reduce 操 作 重 新 进行 划分 ; 

3) 削减 不 必要 的 列 ; 

4) 在 表 扫 描 操作 中 进行 使 用 断言 (predicate) ; 

5) 对 于 已 分 区 的 表 ， 削 减 不 必要 的 分 区 ; 

6) 在 抽样 (sampling) 查询 中 ， 削 减 不 必要 的 桶 。 


此 外 ， 优 化 器 还 能 增加 局 部 聚合 操作 用 于 处 理 大 分 组 聚合 (grouped aggregations) ， 增 加 再 分 区 操作 用 于 处 理 不 对 称 (skew) 的 分 组 聚合 。 


3. 


— 


.2 “Hive 数 据 类 型 
Hive 的 数据 类 型 可 以 分 为 两 大 类 : 基础 数据 类 型 和 复杂 数据 类 型 。 需 要 注意 的 是 ， 在 创建 表 时 数据 类 型 不 区 分 大 小 写 。 
1. 基 础 数据 类 型 


基础 数据 类 型 包括 : TINYINT、SMALLINT、INT、BIGINT、BOOLEAN、FLOAT、DOUBLE、STRING、BINARY、TIMESTAMP、DECIMAL、CHAR、VARCHAR、DATE， 它 们 与 传统 SQL 中 的 数据 
类 型 很 类 似 ， 具 体 数据 类 型 及 所 占 字 节 如 表 3-2 所 示 。 


表 3-2 Hive 数 据 类 型 


类 型 大 小 举 例 

TINYINT IBYTE 有 符号 整 型 20 
SMALLINT 2BYTE 有 符号 整 型 20 

INT 4BYTE 有 符号 整 型 20 

BIGINT 8BYTE 有 符号 整 型 20 
BOOLEAN 布尔 类 型 True 
FLOAT 单 精度 浮 点 型 3.14159 
DOUBLE 双 精 度 浮 点 型 3.14159 


STRING (CHAR, VARCHAR) 


n 
R 
$ 


'hello world' 


TIMESTAMP (DATE) 1327882394 
BINARY FAH 01 
DECIMAL 小 数 24.0 
CHAR 字符 类 型 al 
VARCHAR 字符 串 类 型 'abc' 

2. 复 杂 数 据 类 型 

(1) ARRAY 


ARRAY 类 型 是 由 一 系列 相同 数据 类 型 元 素 组 成 的 ， 这 些 元 素 可 以 通过 下 标 来 访问 ，ARRAY 类 型 的 下 标 是 从 0 开始 的 。 例 如 user 是 一 个 ARRAY 类 型 ， 由 [firstname'，'astname'"] 组 成 ， 那 么 可 以 通过 
user[1] 来 获取 该 用 户 的 lastname。 


(2) MAP 
MAP 包 含 key 一 cfvalue 键 值 对 ， 可 以 通过 key 来 访问 元 素 。 例 如 user 是 一 个 map 类 型 ， 其 中 name 是 key，age 是 value， 那 么 可 以 通过 user['name'] 来 获取 对 应 的 age。 
(3) STRUCT 


STRUCT 可 以 包含 不 同 数据 类 型 的 元 素 。 这 些 元 素 可 以 通过 “点 语法 ”的 方式 来 获取 。 例 如 user 是 一 个 STRUCT 类 型 ， 那 么 可 以 通过 user.age 得 到 该 用 户 的 年 龄 。 


3.1.3 ”Hive 安 装 


Hive 在 安装 之 前 需要 先 配 置 好 其 元 数据 库 ， 本 书 中 Hive 使 用 的 元 数据 库 为 MySQL， 所 以 需要 先 配置 好 MySQL 数 据 库 。 在 配置 好 元 数据 库 后 ， 对 Hive 相 关 配 置 文件 进行 配置 以 及 对 其 主要 配置 内 容 进行 


解读 o 
1.MySQL 安 装 及 配置 


MySQL 数 据 库 可 以 安装 在 Windows 或 Linux 上 (这 里 只 说 主要 的 少数 操作 系统 ， 如 Mac 操 作 系 统 请 读者 自行 查找 ) ， 在 Windows 上 安装 直接 双击 下 载 好 的 exe 文 件 即 可 ， 这 里 不 做 过 多 介绍 。 
基于 Linux 下 的 MySQL 安 装配 置 。 


安装 MySQL 可 以 分 为 在 线 安 装 和 离线 安装 。 
ERRE: 在 线 安装 需要 Linux 机 器 联网 才 行 ， 同 时 保证 yum 源 可 用 (只 针对 本 书 使 用 的 Linux 版 本 CentOS， 如 果 是 Ubuntu 则 参考 对 应 的 命令 即 可 ) ， 执 行 如 下 命令 ， 即 可 安装 MySQL。 


yum install mysql-server.x86 64 -y 


. 离线 安装 : 离线 安装 不 需要 Linux 机 器 联网 ， 但 是 需要 预先 下 载 必要 的 安装 包 ， 包 括 : MySQL-server-5.6.28-1.e16.x86. 64.rpm. MySQL-client-5.6.28-1.e16.x86. 64.rpm.. MySQL-devel-5.6.28- 


1.el6.x86_64.tpm (如 果 是 非 CentOS 系 统 ， 请 查看 对 应 安装 包 ) 。 接 着 ， 执 行 如 代码 清单 3-2 所 示 的 命令 ， 即 可 安装 MySQL。 
代码 清单 3-2 ”Linux 离 线 安装 MySQL 命 令 


rpm -ivh MySQL-server-5.6.28-1.e16.X86 64.rpm 
rpm -ivh MySQL-client-5.6.28-1.e16.x86 64.rpm 
rpm -ivh MySQL-devel-5.6.28-1.e616.x86 64.rpm 


如 果 Hive 服 务 和 MySQL 不 在 同一 个 机 器 ， 那 么 需要 开启 MySQL 远 程 权限 。 在 My-SQL 的 终端 执行 MySQL 命 令 即 可 (针对 root 用 户 开启 远程 访问 权限 ) ， 如 代码 清单 3-3 所 示 。 


代码 清单 3-3 “MySQL 开启 远程 访问 权限 命令 


use mysql; 
delete from user where 1-1; 

GRANT ALL PRIVILEGES ON *.* TO 'root'QG'$' IDENTIFIED BY 'root' WITH GRANT OPTION; 
FLUSH PRIVILEGES; 


修改 完 MySQL 访 问 权 限 后 ， 使 用 命令 service mysqld start 局 动 MySQL， 接 着 在 其 他 机 器 直接 访问 MySQL， 看 是 否 可 以 访问 ， 如 果 可 以 访问 ， 则 说 明 配 置 成 功 。 
2.Hive 本 置 
本 书 中 ， 如 无 特殊 说 明 ， 使 用 的 Hive 都 是 1.2.1 版 本 ， 如 果 读 者 使 用 其 他 版 本 请 参考 本 节 及 官网 文档 进行 配置 。Hive 的 配置 包括 以 下 几 个 步骤 : 


1) 上 传 apache-hive-1.2.1-bin.tar.gz 到 Linux 机 器 (Hive 服 务 所 在 的 机 器 ) ， 并 解压 到 /usr/local 目 录 ， 其 命令 如 下 所 示 。 


tar -zxvf apache-hivel.2.1-bin.tar.gz -C /usr/local 


2) fEUl/usr/local/apache-hive-1.2.1-bin/conf El 3€ FBShive-env.sh.templateZjhive-env.sh, JfXSIIIHADOOP HOME 路 径 配 置 。 编 辑 /etc/profile， 添 加 Hive 环 境 变量 。 


HIVE HOME-/usr/local/apache-hive-1.2.1-bin, 
PATH-SHIVE HOME/bin:S$PATH 


export 
export 


Ct ct 


3) 进入 MySQL, 创建 元 数据 库 ， 名 称 为 hive， 在 $HIVE_HOME/conf 目 录 下 新 建 hive-site.xml 文 件 ， 其 内 容 如 代码 清单 3-4 所 示 。 


代码 清单 3-4 ”hive-site.xml 配 置 文件 


<property> 
«name»javax.jdo.option.ConnectionURL«/name» 
«value»jdbc:mysql://master:3306/hive?createDatabaselfNotExist-true«/value» 
</property> 

<property> 
<name>javax.jdo.option.ConnectionDriverName</name> 
<value>com.mysql.jdbc.Driver</value> 

</property> 

<property> 
<name>javax.jdo.PersistenceManagerFactoryClass</name> 
«value»org.datanucleus.api.jdo.JDOPersistenceManagerFactory«/value» 
</property> 

<property> 
<name>javax.jdo.option.DetachAllOnCommit</name> 
<value>true</value> 

</property> 

<property> 
<name>javax.jdo.option.NonTransactionalRead</name> 
<value>true</value> 

</property> 

<property> 
<name>javax.jdo.option.ConnectionUserName</name> 
<value>root</value> 

</property> 

<property> 
<name>javax.jdo.option.ConnectionPassword</name> 
<value>root</value> 

</property> 

<property> 
<name>javax.jdo.option.Multithreaded</name> 
<value>true</value> 

</property> 

<property> 

<name>datanucleus .connectionPoolingType</name> 
<value>BoneCP</value> 

</property> 

<property> 
«name»hive.metastore.warehouse.dir«/name» 
«value»/user/hive/warehouse«/value» 

</property> 

<property> 

<name>hive.server2.thrift.port</name> 
<value>10000</value> 

</property> 

<property> 
<name>hive.server2.thrift.bind.host</name> 
<value>master</value> 

</property> 

«l-- 

«name»hive.metastore.uris«/name» 
«value»thrift://master:9083«/value» 

<property> 

一 一 > 

«name»hive.hwi.listen.host«/name» 
«value»0.0.0.0«/value» 

</property> 


«property» 
«name»hive.hwi.listen.port«/name» 
«value»9999«/value» 

</property> 

<property> 
<name>hive.hwi.war.file</name> 
<value>lib/hive-hwi-1.2.1.war</value> 
</property> 


其 中 ， 部 分 重要 属性 说 明 如 下 。 
- javax.jdo.option.ConnectionURL: 配置 MySQL 数 据 库 连接 ， 用 来 存储 Hive 元 信息 。 
. javax.jdo.option.ConnectionDriverName: MySQL 数 据 库 驱 动 名 称 。 
- javax.jdo.option.ConnectionUserName: MySQL 数据 库 用 户 名 。 
- javax.jdo.option.ConnectionPassword: MySQL 数 据 库 密码 。 
- hive.metastore.warehouse.dir: Hive 数 据 存 储 的 HDFS 目 录 ， 用 来 存储 Hive 数 据 库 、 表 等 数据 。 
- hive.setver2.thrift.bind.host: 远程 服务 HiveSetvet2 绑 定 的 IP。 
: hive.setvet2.thriftport: 远程 服务 HiveSetvet2 绑 定 的 端口 。 
: hive.metastote.utis: Hive 远 程 安装 模式 下 ， 绑 定 元 数据 存储 服务 器 ， 所 在 服务 器 要 局 动 metastofe 服 务 。 
hive.hwi.listen.host: 配置 Hive Web 方 式 时 ， 绑 定 的 IP 地 址 ， 这 里 使 用 master (机 器 名 和 IP 通 用 ) o 
- hive.hwilisten.port: 配置 Hive Web 方 式 时 ， 监 听 的 端口 。 
- hive.hwi.war.file: 配置 Hive Web 方 式 时 ， 对 应 的 war 包 内 容 包 含 Hive 源 码 中 Web 相 关内 容 。 


4) Jar 包 配置 : 添加 MySQL 驱 动 mysql-connector-java-5.1.25-bin.jar 到 $HIVE_HOME/lib 目 录 ; 将 $HADOOP_HOME/share/hadoop/yarn/lib/ 下 的 jline*.jar 文 件 蔡 换 为 $HIVE_HOME/lib/jline- 
2.12.jar。 


5) 启动 Hive。 用 户 与 Hive 有 3 种 交互 方式 ， 其 中 Web 访 问 方式 对 应 hwi 服 务 ，JDBC 访 问 对 应 hiveserver2 服 务 ，CLI 方 式 直接 与 Hive 交 互 。 
: CLI 方 式 启 动 : 在 Shell 命 令 行 输入 hive， 直 接 进 入 hive; 使 用 Jps 命 令 查看 进程 ， 如 有 Runjat 进 程 ， 则 正常 启动 。 
. Web 表 方式 启动 : 在 Shell 中 输入 nohup hive - service hwi&; 然后 在 浏览 器 访问 IP: 9999/hwi/ 可 看 到 Hive Web 界 面 ， 则 正常 启动 。 


- 远程 服务 方式 启动 : 在 Shell 中 输入 nohup hive--setvice hiveserver2&; 然后 执行 netstat - ntpl|grep 10000， 如 果 可 以 看 到 10000 端 口 已 绑 定 IP， 则 正常 启动 。 
3.1.4 动手 实践 : Hive 安 装配 置 


在 3.1.1 节 已 介绍 过 HiveQL 的 执行 流程 及 所 用 到 的 服务 ， 为 了 更 好 地 学 习 Hive， 后 面 有 大 量 的 动手 实践 ， 这 些 实践 都 是 基于 已 搭建 好 的 Hive， 因 此 为 了 便于 学 习 ，Hive 的 安装 配置 是 必需 的 。 此 实验 即 
是 完成 Hive 的 安装 配置 ， 根 据 下 面 的 实验 步骤 完成 实验 。 

实验 步 又: 

1) 上 传 解压 Hive 安 装 包 ， 添 加 环境 变量 ， 配 置 hive-site.xml。 

2) 安装 MySQL 服 务 ， 开 启 远程 权限 ,创建 元 信息 数据 库 。 

3) 上 传 MySQL 驱 动 ，Hive 相 关 jline-*.jar 包 替换 。 

4) 以 CLI 方 式 启动 Hive。 

思考 : 

1) 如 果 Hive 服 务 和 和 MySQL 服务 在 同一 台 机 器 ， 那 么 是 否 还 需要 开启 MySQL 的 远程 访问 权限 ? 


2) 第 3 步 中 蔡 换 jline 相 关 jar 包 是 否 必须 ? 为 什么 要 蔡 换 ? 
3.1.5 ”动手 实践 : HiveQL 基 础 一 SQL 


HiveQL 与 传统 SQL 语句 非 常 类 似 ， 将 HiveQL 与 传统 SQL 编写 进行 比较 ， 发 现 二 者 的 区 别 及 各 自 的 优势 ， 无 疑 是 学 习 Hive 的 一 个 捷径 。 因 此 ， 在 这 里 设置 了 SQL 练习 ， 目 的 是 先 让 大 家 熟悉 SQL 的 编写 ， 
作为 后 面 学 习 HiveQL 的 基础 。 


如 表 3-3、 表 3-4、 表 3-5 所 示 ， 有 3 张 表 : 部 门 信息 表 (dept). BRESK (emp) 、 薪 水 等 级 表 (salgrade) ， 其 中 部 门 信息 表 (dept) 和 雇员 信息 表 (emp) 通过 EMPNO 字 段 关 联 ， 三 张 表 的 
关联 关系 如 表 3-4 所 示 。 在 了 解 表 结构 以 及 表 关 联 关系 后 ， 根 据 实验 步骤 完成 实验 。 


表 3-3 dept 
字 E 类 型 S X 
Deptno Number(2) 部 门 编号 
Varchar2(14) 部 门 名 字 


Loc Varchar2(14) 部 门 所 在 地 


J 
z 
e 
3 
0 


表 3-4 emp 


字 B 
Empno 
Ename 
Job 

Mgr 
Hiredate 
Sal 
Comm 


Deptno 


MGR decimalí4 
HIREDATE: date 
SAL: decimal(7. 2 


COMM: decimal(? 
DEPTNO: decimal(4 


1) 使 用 NavicatPremium 工 具 连 接 MySQL 数 据 库 。 


2 


3 


新 建 数 据 库 ， 使 用 数据 hive\data\data.psc 还 原 备份 。 


完成 以 下 SQL 练习 题 。 


.distinct 关 键 字 的 应 用 


. 查看 emp 表 中 所 有 员工 所 在 的 部 门 情况 。 


. 去 掉 部 门 情况 中 重复 的 部 门 。 


- 当 部 门 编 号 和 工作 岗位 组 合 后 ， 有 重复 的 就 去 掉 。 


: where 查 询 条 件 与 运算 符 


. 查看 emp 表 中 薪水 大 于 1500 的 记录 所 有 信息 。 


| 查看 emp 表 中 姓名 等 于 CLARK 的 记录 信息 。 


Number(4) 
Varchar2(10) 
Varchar2(9) 
Number(4) 
Date 
Number(7,2) 
Number(7,2) 


Number(2) 


ek 
| 


表 3-5 salgrade X 
x 型 
Number(5) 


Number(5) 


Number(5) 


salgrade 


HISAL : decimal(1C 


关联 


图 3-4 ”关联 关系 


含 X 


雇员 编号 

雇员 姓名 

工作 岗位 

该 雇员 的 经 理 人 编号 

和信 职 时 间 

薪水 

津贴 

雇员 所 在 部 门 编号 
念 义 

薪水 等 级 

该 等 级 的 最 低 薪水 值 

该 等 级 的 最 高 薪水 值 


i DEPTNO decimalí4 
DNAME: varchar(t4) 
LOC: varcha 


| 查看 emp 表 中 部 门 编号 不 等 于 10 的 记录 的 所 有 信息 。 
. 查看 emp 表 中 工资 在 800 至 1500 之 间 的 记录 的 所 有 信息 。 
. 查看 emp 表 中 津贴 不 等 于 null 的 所 有 记录 。 
. 查看 emp 表 中 薪水 是 800 或 1500 或 2000 的 记录 的 所 有 信息 。 
- order by 排序 
. 按 部 门 编号 升序 排列 (默认 asc 为 升序 ) 。 
* 将 部 门 编号 不 为 10 的 所 有 员工 按 员 工 编 号 升序 排列 。 
.将 所 有 员工 先 按 部 门 编号 升序 排序 ， 当 部 门 一 样 时 ， 再 按 姓名 降序 排序 。 
- max () ~ min () ~ avg () ~ sum () 、count () 函数 应 用 
| 查看 emp 表 中 最 高 的 薪水 。 
| 查看 emp 表 中 平均 薪水 是 多 少 并 对 其 四 舍 五 入 保留 两 位 小 数 显示 。 
计算 emp 表 中 总 的 薪水 是 多 少 。 
: 统计 emp 表 中 总 的 记录 是 多 少 。 
- group by 应 用 
将 各 部 门 的 平均 薪水 找 出 来 。 
- 将 平均 薪水 大 于 2000 的 部 门 找 出 来 。 
. 找 出 薪水 大 于 1200 的 所 有 员工 ， 并 按 部 门 编号 分 组 ， 找 出 部 门 平均 薪水 在 1500 以 上 的 部 门 编号 及 其 平均 薪水 ， 并 按 平均 薪水 降序 排列 。 
E 表 自 连接 查询 
从 emp 表 中 查找 每 个 员工 对 应 的 经 理 人 是 谁 ， 并 要 求 按 经 理 人 排序 。 
qmd GERE) 
| 在 emp 表 中 ， 查 找 哪个 员工 的 工资 最 高 。 
` 在 emp 表 中 ， 查 找 哪些 员工 的 工资 高 于 平均 工资 。 
| 在 emp 表 中 ， 查 找 各 部 门 中 哪个 员工 的 工资 最 高 。 


. 每 个 部 门 的 平均 工资 所 属 的 等 级 。 


3.2 ”HiveQL 语 句 

HiveQL 是 一 种 类 SQL 语言 ， 用 于 分 析 处 理 存 储 在 HDFs 中 的 结构 化 数据 ， 它 不 支持 事务 及 更 新 操作 ， 延 迟 比较 大 。 但 是 ，HiveQL 语 句 通过 解释 器 、 编 译 器 、 优 化 器 转换 为 MapReduce 作 业 提 交 到 
Hadoop 集 群 执 行 ， 可 以 并 行 处 理 海量 数据 ， 大 大 方便 了 数据 分 析 人 员 ， 简 化 他 们 的 编程 操作 。HiveQL 有 3 种 执行 方式 : hive 命 令 行 ; hive-e hivegl; hive-f hive.script, 

其 中 ，-e 选 项 的 执行 方式 是 直接 执行 跟着 后 面 的 HiveQL 命 令 ; 而 -{ 选 项 则 是 执行 一 个 包含 HiveQL 命 令 的 文件 。 


HiveQL 语 句 和 常规 的 SQL 语句 类 似 ， 主 要 包括 管理 命令 和 查询 命令 。 管 理 命令 包括 : 数据 库 常规 操作 、 表 常规 操作 、 数 据 导 入 导出 ;查询 命令 就 是 各 种 select 和 多 种 条 件 结合 查询 的 语句 。 下 面 分 别 介 
47J 


3.2.1 ”数据 库 操作 
数据 库 相 关 操 作 就 是 创建 数据 库 、 查 看 数据 库 、 使 用 数据 库 、 删 除数 据 库 ， 其 命令 对 应 为 : create database mydatabase、show databases、use mydatabase、drop database mydatabase。 
3.2.2 ”Hive 表 定义 


Hive 和 MySQL 的 表 操 作 语句 很 类 似 ， 如 果 熟 悉 MySQL， 学 习 Hive 的 表 操 作 就 非常 容易 了 。 代 码 清单 3-5 是 Hive 创 建 表 的 基本 语法 。 


代码 清单 3-5 ”Hive 创 建 表 语句 


CREATE [EXTERNAL] TABLE [IF NOT EXISTS] [db name.]table name 

[ (col name data type [COMMENT col comment], http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/16328/O0EBPS/Text/...)] 

[PARTITIONED BY (col name data type, http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/16328/OEBPS/Text/...)] 

[CLUSTERED BY (col name, col name, http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/16328/OEBPS/Text/...) [SORTED BY (col name [ASC|DESC 
[ 

[ 

[ 


ROW FORMAT row format] 


STORED AS file format] 
LOCATION hdfs path] 


其 中 ， 参 数 说 明 如 下 : 
: CREATE TABLE: 创建 一 个 指定 名 字 的 表 。 如 果 相 同名 称 的 表 已 经 存在 ， 则 抛 出 异常 ; 用 户 可 以 使 用 FENOT EXISTS 这 个 选项 来 忽略 这 个 异常 。 
- EXTERNAL: 该 关键 字 可 以 让 用 户 创建 一 个 外 部 表 ， 在 建 表 的 同时 使 用 LOCA-TION 关 键 字 指向 数据 存储 路 径 。 外 部 表 在 删除 时 ， 只 删除 其 对 应 的 元 数据 ， 而 不 删除 数据 。 


: COMMENT: 用 作 字 段 的 注释 。 


. PARTITIONED BY: 指定 分 区 表 的 分 区 字段 ， 可 以 为 多 个 字段 。 
- CLUSTERED BY: Hive 中 Table 可 以 拆 分 成 PARTITION ，Table 和 PARTITION 可 以 通过 PARTITIONED BY 进一步 分 为 Bucket，Bucket 中 的 数据 可 以 通过 CLUSTE-RED BY 对 数据 排序 。 
- STORED AS: 指定 Hive 文 件 存 储 格式 ，Hive 存 储 格式 有 以 下 4 种 : 


"TEXTFILE 格 式 ， 默认 格式 ， 数 据 不 压缩 ， 磁 盘 开 销 大 ， 数 据 解 析 开 销 大 。 可 结合 Gzip、Bzip2 使 用 (系统 自动 检查 ， 执 行 查询 时 自动 解压 ) ， 但 使 用 这 种 方式 ，Hive 不 会 对 数据 进行 切 分 ， 从 而 无 法 
对 数据 进行 并 行 操作 。 


: SequenceFile A, X Hadoop API 提 供 的 一 种 二 进 制 文件 支持 ， 其 具有 使 用 方便 、 可 分 割 、 可 压缩 的 特点 。SequenceFile 支 持 3 种 压缩 选择 : NONE、RECORD、BLOCK。Record 压 缩 率 低 ， 一 般 建议 使 
用 BLOCK 压缩 。 


: RCEFILE 格 式 ， 是 一 种 行列 存储 相 结合 的 存储 方式 。 首 先 ， 其 将 数据 按 行 分 块 ， 保 证 同一 个 tecotd 在 一 个 块 上 ， 避 免 读 一 个 记录 需要 读 取 多 个 块 。 其 次 ， 块 数据 列 式 存储 ， 有 利于 数据 压缩 和 快速 的 列 
存 取 。 


: LOCATION: 创建 外 表 时 ， 指 定数 据 在 HDFS 上 的 存储 目录 。 
Hive 中 定义 表 有 5 种 方式 ， 分 别 为 : 创建 内 表 、 创 建 外 表 、 创 建 静 态 分 区 表 、 创 建 动 态 分 区 表 、 创 建 带 有 数据 的 表 。 接 下 来 将 详细 介绍 这 5 种 创建 表 的 方式 。 
1. 创 建 内 表 


创建 内 表 是 比较 常见 的 一 种 创建 表 的 方式 ， 使 用 CREATE TABLE 创 建 ， 使 用 LOAD DATA 加 载 数据 。 这 种 表 可 以 理解 为 数据 和 表 都 保存 在 一 起 的 数据 表 ， 当 通过 DROP TABLE 删 除 时 ， 元 数据 和 表 数 据 
都 会 删除 。 例 如 ， 创 建 一 个 内 表 customer， 其 字段 包括 ID、 姓 名 和 生日 ， 使 用 HiveQL 进 行 建 表 ， 其 建 表 语句 如 代码 清单 3-6 所 示 。 


代码 清单 3-6 ”创建 customer 表 


CREATE TABLE customer ( 

customerID INT, 

firstName STRING, 

lastName STRING, 

birthday TIMESTAMP) 

ROW FORMAT DELIMITED FIELDS TERMINATED BY','; 


RHrh, "ROW FORMAT DELIMITED FIELDS TERMINATED BY', " 表示 指定 使 用 “，” 分 隔 每 列 数据 。 
2. 创 建 外 表 


外 表 的 创建 与 内 表 的 不 同 之 处 在 于 ， 在 创建 时 带 有 EXTERNAL 关 键 字 、 外 表 可 以 理解 为 元 数据 和 表 数 据 存 储 在 不 同 的 地 方 ， 在 删除 外 表 时 ， 只 是 删除 了 外 表 的 元 信息 ， 即 表 的 结构 ， 但 表 的 数据 依然 在 
HDFS 目 录 中 。 例 如 ， 创 建 外表 salaries 的 代码 如 代码 清单 3-7 所 示 。 


代码 清单 3-7 创建 salaries 表 


CREATE EXTERNAL TABLE salaries ( 
gender string, 

age int, 
salary double, 
zip int) 
ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' LOCATION '/user/train/salaries/'; 


说 明 : 

salaties 表 是 外 表 ， 与 customet 表 相 比 ， 创 建 时 带 有 EXTERNAL 前 级 和 LOCATION。 

.LOCATION 用 来 指定 数据 存储 位 置 (默认 存储 在 hive-site.xml 中 hive.metastote.watehouse.dqit 对 应 目录 下 面 ) o 
3. 动 手 实践 : 创建 内 /外 表 


通过 该 动手 实践 ， 可 以 让 读者 熟悉 HiveQL 基 本 建 表 语 句 ， 帮 助理 解 Hive 表 的 结构 及 其 对 应 HDFS 目 录 关 系 ， 在 实践 过 程 中 深刻 理解 Hive 的 有 关 知 识 。 请 读者 根据 实验 步骤 完成 该 动手 实践 。 


1) 参考 如 下 示例 HiveQL 语 句 ， 创 建 内 表 customer， 查 看 表 结构 、HDFS 目 录 结 构 。 


CREATE TABLE customer( customerID INT, firstName STRING, lastName STRING, birthday TIMESTAMP ) 
ROW FORMAT DELIMITED FIELDS TERMINATED BY ','; 


2) 参考 如 下 HiveQL 语 句 ， 创 建 外 表 salaries， 查 看 表 结构 ，HDFS 结 构 。 


CREATE EXTERNAL TABLE salaries( gender string, age int, salary double, zip int ) 
ROW FORMAT DELIMITED FIELDS TERMINATED BY `,” LOCATION "/user/train/salaries'; 


思考 : 

1) customer 与 salaries 表 的 HDFS 目 录 结 构 有 何 区 别 ? 

2) 创建 外 表 能 否 去 掉 LOCATION 关 键 字 ? 能 否 去 掉 EXTERNAL 关 键 字 ? 为 什么 ? 
4. 创 建 静态 分 区 表 


一 般 的 SELECT 查 询 会 扫描 整个 表 ， 但 是 如 果 一 个 表 创 建 时 使 用 了 PARTITIONED BY 子 句 ， 查 询 时 就 可 以 只 扫描 它 关心 的 那 一 部 分 ， 即 只 扫描 指定 的 分 区 ， 如 此 就 可 以 大 大 提高 查询 效率 。 例 如 创建 
employees_part 静 态 分 区 表 ， 其 建 表 语 句 如 代码 清单 3-8 所 示 。 


代码 清单 3-8 创建 employees 表 


-- 1、 创 建 employees 表 
CREATE TABLE employees ( 


id int, 

name string, 

salary double, 

depts string) 

ROW FORMAT DELIMITED FIELDS TERMINATED BY 'Nt'; 

me 导入 数据 到 employees 表 

LOAD DATA LOCAL INPATH '/data/employees part.txt' OVERWRITE INTO TABLE employees; 
-- 3、 创建 静态 分 区 表 employees_part 

CREATE TABLE employees part ( 

id int, 
name string, 

salary double 

depts string) 

PARTITIONED BY (dept string) ROW FORMAT DELIMITED FIELDS TERMINATED BY 'Nt'; 


针对 代码 清单 3-8 语 句 ， 做 如 下 说 明 : 
- 创建 employees 表 并 导入 数据 ， 创 建 employees_patt 静 态 分 区 表 ， 从 employees 表 查询 数据 并 导入 。 
. 表 列 数据 用 制 表 符 “\t ”分 隔 ，PARTITIONED BY 指定 分 区 字段 为 dept， 导 入 数据 时 可 以 指定 分 区 导入 。 


: 使 用 PARTITION (dept='SALES') 指定 分 区 导入 数据 后 ，HDFS 目 录 结 构 如 图 3-5 所 示 。 


图 3-5 HDFS 目 录 结 构 


5. 动 手 实践 : 静态 分 区 表 


通过 创建 静态 分 区 表 ， 查 看 其 结构 及 HDFS 目 录 ， 深 刻 理解 分 区 的 概念 ， 对 比 创建 的 内 表 及 外 表 ， 理 解 它们 之 间 的 区 别 ， 根 据 实验 步骤 完成 实验 。 


1) 创建 employees 表 ， 并 导入 数据 hive/data/employees part.txt， 命 令 语句 如 代码 清单 3-9 所 示 。 


代码 清单 3-9 ”创建 employees 表 


CREATE TABLE employees ( id int, name string , salary double) PARTITIONED BY (dept string) ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t' ; 
LOAD DATA LOCAL INPATH ' /data/employees | part.txt' OVERWRITE INTO TABLE employees; 


2) 创建 静态 分 区 表 employees_part， 并 从 employees 表 查询 数据 导入 SALES 分 区 ， 命 令 语 句 如 代码 清单 3-10 所 示 。 


代码 清单 3-10 ”创建 静态 分 区 表 employees_part 


CREATE TABLE employees part ( 
id int, 
name string, 

salary double) 

PARTITIONED BY (dept string) ROW FORMAT DELIMITED FIELDS TERMINATED BY 'Nt'; 

NSERT OVERWRITE TABLE employees part PARTITION(dept-'SALES') SELECT id,name,salary FROM employees WHERE dept-'SALES'; 


3) 查看 employees_part 表 结构 及 对 应 HDFS 目 录 结 构 。 
思考 : 
1) 如 果 有 多 个 分 区 字段 ， 则 HDFS 结 构 如 何 变化 ? 


2) 多 个 分 区 字段 加 大 效率 的 同时 ， 会 有 什么 不 好 的 地 方 ? 


6. 创 建 动态 分 区 表 
在 Hive 中 ， 默 认 是 使 用 静态 分 区 的 ， 其 动态 分 区 功能 是 关闭 的 。 但 有 时 因为 业务 需 需要 动态 创建 不 同 的 分 区 ， 这 时 就 用 到 了 Hive 的 动态 分 区 。 动 态 分 区 功能 可 以 通过 设置 


hive.exec.dynamic.partition 参 数 来 开启 ， 其 默认 值 是 false， 开 启 需要 设置 为 true。 同 时 ，hive.exec.dynamic.partition.mode 为 必须 至 少 有 一 个 分 区 字段 是 指定 有 值 的 ， 其 默认 值 为 strict， 需 要 设置 为 
nostrict， 分 区 字段 可 以 全 为 动态 指定 。 


代码 清单 3-11 创建 student_ dynamic 表 


-- 1、 创建 student 表 
CREATE TABLE student ( 
id int, 
name string, 

score double, 

classes string) 

ROW FORMAT DELIMITED FIELDS TERMINATED BY 'Nt'; 
== 2 导入 数据 到 student 表 
load data local inpath ‘/data/students.txt’ overwrite into table student; 
ee 3 创建 动态 分 区 表 Student dynamic 

set hive.exec.dynamic.partition-true; 

set hive.exec.dynamic.partition.mode-nostrict; 

CREATE TABLE student dynamic ( 

id int, 
name string, 

score double, 

classes string) 

PARTITIONED BY (class string) ROW FORMAT DELIMITED FIELDS TERMINATED BY 'Nt'; 
-- 4、 导 入 数据 到 动态 分 区 表 
NSERTOVERWRITETABLEstudent dynamicPARTITION (class) SELECT*, classesFROMstudent; 


动态 分 区 表 student dynamic 的 分 区 字段 为 class， 使 用 INSERT 语 句 导入 分 区 数据 时 ，PARTITION 关 键 字 指定 的 分 区 字段 顺序 必须 与 SELECT 语句 中 后 面 的 几 个 查询 字段 顺序 保持 一 致 ， 但 名 称 可 以 不 一 
致 。 表 student dynamic 只 有 一 个 分 区 字段 ， 由 以 上 INSERT 语 句 ， 可 知 分 区 字段 class 与 查询 字段 classes 对 应 ， 导 入 数据 后 HDFS 目 录 结 如 图 3-6 所 示 。 


class-2a 


图 3-6 HDFS EH: ZH 
7. 动 手 实践 : 动态 分 区 表 


假如 HDFS 上 有 一 份 一 个 月 的 原始 数据 ， 数 据 量 非常 大 ， 需 要 加 载 到 Hive 中 处 理 ， 可 能 仅 需 要 对 某 几 天 的 数据 进行 分 析 ， 这 时 就 可 以 创建 动态 分 区 表 ， 指 定 以 天 为 分 区 字段 ， 在 导入 数据 时 就 会 将 每 一 
天 的 数据 放 到 不 同 的 分 区 目录 中 ， 当 分 析 某 一 天 的 数据 时 ， 指 定 分 区 即 可 ， 无 需 全 表 扫 描 ， 即 可 快速 得 出 分 析 结 果 。 此 实验 即 是 这 种 建 表 方 式 的 一 个 简单 应 用 。 根 据 实验 步骤 ， 完 成 实验 。 


实验 步骤 : 
1) 创建 student 表 ， 并 导入 数据 hive/data/students.txt， 命 令 语句 如 代码 清单 3-12 所 示 。 


代码 清单 3-12 ”创建 student 表 


CREATE TABLE student ( 
id int, 
name string, 
score double, 

classes string) 

ROW FORMAT DELIMITED FIELDS TERMINATED BY 'Nt'; 

LOAD DATA LOCAL INPATH '/data/students.txt' OVERWRITE INTO TABLE student; 


2) 创建 student_ dynamic 表 ， 命 令 语 句 如 代码 清单 3-13 所 示 。 


代码 清单 3-13 ”创建 student_ dynamic 表 


set hive.exec.dynamic.partition-true; 
set hive.exec.dynamic.partition.mode-nostrict; 
CREATE TABLE student dynamic ( 


name string, 

Score double, 

classes string) 

PARTITIONED BY (class string) ROW FORMAT DELIMITED FIELDS TERMINATED BY 'Nt'; 


3) 导入 数据 到 student_dynamic 表 ， 观 察 HDFS 目 录 结 构 变化 ， 如 图 3-7 所 示 。 


hive> INSERT OVERWRITE TABLE student dynamic PARTITION (class) SELECT *,classes FROM student ; 


Partition tipdm.student dynamicíclass-2a] 


Partition tipdm.student dynamiciíclass-2bj 
Partition tipdm.student dynamiciclass-3a] 
Partition tipdm.student dynamici[class-3b] 
Partition tipdm.student dynamic(class-3c) 
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思考 : 步骤 3 的 导入 语句 中 ，SELECT 查 询 语句 中 的 classes 字 段 能 否 去 掉 ? 为 什么 ? 


8. 创 建 带 有 数据 的 表 


在 实际 应 用 中 ， 表 的 输出 结果 可 能 非常 多 ， 不 适合 显示 在 控制 台 上 ， 因 此 ,可 将 Hive 的 查询 结果 直接 存储 在 一 个 新 的 临时 表 中 ， 以 便 分 析 。 比 如 ， 现 在 有 表 stu， 需 要 针对 表 stu 进 行 查询 ， 然 后 创建 临 
时 表 stucopy， 其 中 表 stucopy 的 数据 直接 从 表 stu 查 询 得 到 。 


CREATE TABLE stucopy AS SELECT id,name,score FROM stu; 


9. 动 手 实 践 : 创建 带 有 数据 的 表 


的 表 ， 创 建 表 的 同时 导入 数据 。 此 实验 即 是 这 种 建 表 方 式 的 一 个 简单 应 用 。 根 据 实验 步骤 ， 完 成 8 


在 实际 应 用 中 ， 创 建 带 有 数据 的 表 是 很 常用 的 ， 可 以 从 原始 表 分 析出 来 一 些 结果 ， 后 续 可 能 还 要 对 这 些 结果 进行 再 次 分 析 。 为 了 方便 ， 可 以 将 第 一 次 的 分 析 结 果 导 出 到 另外 一 张 表 中 ， 即 创建 
SE 


验 。 
m 


实验 步骤 : 


1) 创建 stu 表 ， 并 导入 数据 (导入 数据 可 以 参考 3.2.3 节 内 容 ) 。 


CREATE TABLE stu (id int, name AE , Score double , classes string) ROW FORMAT 
DELIMITED FIELDS TERMINATED BY "'Nt' 
LOAD DATA INPATH '/data/students.txt' OVERWRITE TABLE stu; 


其 中 ，/data/students.txt 可 以 在 hive/data/students.txt 中 下 载 。 
2) 参考 前 面 ， 创 建 带 有 数据 的 stucopy 表 。 


思考 : 对 比 表 stu 与 stucopy 表 结构 及 HDFS 目 录 结 构 ， 有 何不 同 ? 


3.2.3 ”数据 导入 


file: 


Hive 数 据 导入 ， 又 称 Hive 数 据 装载 。Hive 在 装载 数据 时 没有 做 任何 转换 ， 加 载 到 表 中 的 数据 只 是 进入 相应 的 配置 单元 表 的 位 置 移动 数据 文件 。 语 法 如 下 : 


LOAD DATA [LOCAL] INPATH 'filepath' [OVERWRITE] INTO TABLE tablename [PARTITION 
(partcoll-vall, partcol2-val2 http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/16328/OEBPS/Text/...)] 


LOAD 操 作 只 是 单纯 地 复制 /移动 操作 ， 将 数据 文件 移动 到 Hive 表 对 应 的 位 置 ，file-path 可 以 是 以 下 类 型 。 
- 相对 路 径 : 例如 project/data。 
- 绝对 路 径 : 例如 /user/hive/project/data。 
包含 模式 的 完整 URI: 例如 hdfs: //namenode: 8020/user/hive/project/data. 
注意 : filepath 可 以 引用 一 个 文件 或 一 个 目录 ， 加 载 的 目标 (tablename) 可 以 是 一 个 表 或 分 区 。 如 果 是 一 个 分 区 表 ， 必 须 指定 分 区 名 称 。 
Hive 中 导入 数据 有 4 种 方式 : 本 地 导入 、HDFS 导 入 、 单 表 插 入 、 多 表 插 入 。 接 下 来 将 详细 讲解 每 种 导入 方式 。 
1. 本 地 与 HDFS 导 入 


本 地 导入 数据 时 ， 被 导入 文件 在 本 地 文件 系统 中 (Hive 客 户 端 所 在 的 系统 ， 比 如 Linux) ; HDFS 导 入 数据 时 ， 被 导入 文件 在 HDFS 文 件 系 统 中 。 导 入 数据 语法 如 下 : 


LOAD DATA [LOCAL] INPATH 'filepath' OVERWRITE INTO TABLE table name PARTITION (*ÉBt- MÉ') 


如 果 是 直接 导入 表 ( 非 分 区 表 ) ， 那 么 不 需要 后 面 指定 的 PARTITION 语 句 。 如 果 导 入 的 是 分 区 表 ， 那 么 过 程 会 比较 复杂 。 具 体 分 析 如 下 : 


导入 语句 带 有 LOCAL 关 键 字 ， 那 么 LOAD 命 令 会 查找 本 地 文件 系统 中 的 flepath。 如 果 没 有 LOCAL 关 键 字 ， 那 么 就 会 查找 HDFS 上 面 的 路 径 。 这 里 建议 使 用 绝对 路 径 ， 如 


///user/hive/project/data, 或 hdfs: //namenode: 8020/user/root/data/test.txto 

: LOAD 命 令 会 将 filepath 中 的 文件 复制 到 目标 文件 系统 中 (也 就 是 HDFS 中 ) o 

: OVERWRITE 指 定 履 盖 表 之 前 的 数据 ， 如 果 是 追加 ， 则 去 挤 OVERWRITE 关 键 字 即 可 。 

如 果 是 内 表 ， 那 么 数据 会 被 复制 到 hive-site.xml 配 置 文件 中 hive.metastore.ware-house.dit 对 应 目录 下 ; 如 果 是 外 表 ， 那 么 数据 会 被 复制 LOCATION 指 定 目 录 下 。 
2. 动 手 实 践 : 本 地 及 HDFS 导 入 


本 地 导入 和 HDFS 导 入 一 般 导入 的 是 原始 数据 ， 可 能 是 存储 在 文件 系统 中 的 各 种 不 同 的 文件 ， 这 两 种 导入 方式 在 使 用 Hive 处 理 数据 时 是 必 不 可 少 的 。 下 面 请 读者 根据 实验 步骤 ， 完 成 本 次 实验 。 


1) 创建 customer local 表 ， 本 地 导入 数据 hive/data/customer.txt。 


CREATE TABLE customer local( customerID INT, firstName STRING,lastName STRING ,birthday STRING) ROW FORMAT DELIMITED FIELDS TERMINATED BY ','; 


2) 创建 customer hdfsz (字段 与 customer local 字 段 一 样 ) ， 用 HDFS 方 式 导 入 数据 hive/data/customer.txt (需要 先 把 数据 上 传 到 HDFS) 。 
思考 : 

1) customer_hdfs 表 和 customer local 表 的 数据 是 否 一 样 ? HDFS 中 的 目录 结构 是 否 一 样 ? 

2) 如 果 customer local 表 是 按照 birthday (F) 进行 分 区 ， 那 么 导入 HiveQL 语 句 应 该 怎么 编写 ? 

3. 单 表 插 入 


单 表 插入 指 从 一 张 表 中 查询 数据 插入 另 一 张 表 ， 两 张 表 都 是 提前 创建 好 的 ， 且 单 表 插入 时 ， 对 应 的 查询 字段 与 要 插入 的 表 中 的 字段 类 型 对 应 。 单 表 插 入 语法 如 下 : 


NSERT [OVERWRITE|INTO] 表 1 [PARTITION (part1l=vall,part2=val2) ] SELECT 字 上 段 1, 字段 2, 字 段 3 FROMX2; 


说 明 如 下 : 
| 从 表 2 查 询 字 段 1、 字 段 2、 字 段 3 播 入 表 1 中 ， 播 入 时 可 以 指定 分 区 插入 。 


. 表 1 中 的 3 个 字段 与 表 2 中 的 3 个 字段 类 型 对 应 一 致 。 


带 有 数据 


析 


表 


已 
sF 


" OVERWRITE 指 覆盖 原 有 表 或 分 区 数据 ，INTO 指 追加 数据 到 分 区 或 表 。 
4. 动 手 实践 : 单 表 插入 


实际 生产 中 ， 原 始 数据 全 部 导入 一 张 表 中 ， 但 由 于 业务 需求 不 同 ， 可 能 某 些 分 析 只 需要 原始 数据 中 的 部 分 属性 ， 因 此 ， 可 以 从 原始 数据 表 中 碍 询 并 插入 当前 业务 表 中 ， 这 样 以 后 分 析 时 只 针对 该 表 分 
， 不 用 针对 原始 表 进 行 分 析 ， 提 高 效率 。 本 次 实验 为 单 表 插入 ， 读 者 根据 实验 步骤 ， 完 成 本 次 实验 。 


实验 步骤 : 


1) 创建 外 表 employees_external 并 使 用 本 地 导入 数据 HiveQL 语 句 导入 数据 ， 数 据 在 hive/data/employees.txt 中 。 


CREATE EXTERNAL TABLE employees external( id int, name string , salary double ) 
ROW FORMAT DELIMITED FIELDS TERMINATED BY 'Nt' ; 


2) 8g employees part, 


CREATE EXTERNAL TABLE employees part (name string , salary double ) PARTITIONED BY (dept string) ROW FORMAT DELIMITED FIELDS TERMINATED BY 'Nt' LOCATION '/data/ 
out part'; 


3) 使 用 单 表 插 入 导入 数据 到 employees_part 中 ， 并 查看 HDFS 结 构 。 

思考 : 

1) 单 表 插入 HiveQL 语 句 应 该 怎么 编写 ? 

2) 如 果 在 查询 的 导入 数据 的 时 候 ， 只 关心 salary 大 于 1000 的 数据 ， 应 该 怎么 编写 单 表 插 入 的 HiveQL 语 句 ? 
5. 多 表 插 入 


多 表 插入 指 可 以 从 一 个 源 表 中 执行 多 个 查询 ， 并 将 结果 导入 多 个 表 中 。 语 法 结构 是 把 INSERT 语 句 倒 过 来 ， 把 FROM 放 在 最 前 面 。 从 表 1 查 询 数据 ， 插 入 到 表 2 和 表 3 中 ， 语 法 如 下 : 


FROM X1 
NSERT INTO TABLE 表 2 SELECT 字段 LIMIT N 
NSERT INTO TABLE X€3- SELECT 字段 WHERE .. ; 


多 表 插 入 类 似 于 数据 导入 的 第 3 种 方式 ， 从 别 的 表 中 查询 出 相应 的 数据 并 导入 Hive 表 。 与 第 3 种 导入 方式 的 区 别 是 : 多 表 插入 可 以 从 一 个 源 表 中 执行 多 个 查询 ， 并 将 结果 导入 多 个 表 中 。 
6. 动 手 实践 : 多 表 插入 


多 表 插 入 与 单 表 插入 很 类 似 ， 其 应 用 场景 有 一 定 的 区 别 ， 实 际 生 产 中 ， 原 始 数 据 全 部 导入 一 张 表 中 ， 单 表 插入 一 次 只 能 插入 一 张 业务 表 。 但 如 果 事 先 已 根据 业务 需求 ， 创 建 好 多 个 用 于 不 同业 务 分 析 的 
这 时 就 用 到 多 表 插 入 了 ， 一 条 语句 可 将 不 同 的 数据 插入 多 个 表 中 ， 提 高 效率 。 下 面 将 创建 3 个 表 emp、empcopy1、empcopy2， 其 中 empcopy1 和 empcopy2 表 通过 多 表 插 入 方式 ， 从 emp 表 中 查询 并 


~ 


入 数据 。 注 意 : empcopy1 表 和 empcopy2 表 结构 不 同 。 


请 读者 根据 实验 步骤 ， 完 成 本 次 多 表 插 入 实验 。 
实验 步骤 : 


1) 创建 emp 表 ， 参 考 如 下 HiveQL 语 句 。 


CREATE EXTERNAL TABLE emp ( id int , name string , salary double ) ROW FORMAT DELIMITED FIELDS TERMINATED BY 'Nt' LOCATION "'/data/out emp'; 


2) 使 用 HDFS 导 入 数据 方式 ， 导 入 数据 hive/data/employees.txt 到 emp 表 。 


3) 创建 empcopy1 和 empcopy2 表 ， 参 考 如 下 HiveQL 语 句 。 


LE empcopyl ( id int , name string ) ROW FORMAT DELIMITED 
‘\t’ LOCATION '/data/out empcopyl'; 

E empcopy2 (name string, name string ) ROW FORMAT DELIMITED 
D BY '\t' LOCATION '/data/out empcopy?2'; 


Hj Odo 


4) 执行 多 表 插 入 ， 并 查看 插入 结果 。 
思考 : 
1) 多 表 插 入 HiveQL 语 句 应 该 怎么 编写 ? 


2) 如 果 在 查询 的 导入 数据 的 时 候 ， 只 关心 salary 大 于 1000 的 数据 ， 应 该 怎么 编写 多 表 插 入 的 HiveQL 语 句 ? 


3.2.4 ”数据 导出 


Hive 不 支持 用 INSERT 语 句 一 条 一 条 地 进行 插入 操作 ， 也 不 支持 UPDATE 操 作 。 数 据 以 LOAD 的 方式 加 载 到 建立 好 的 表 中 ， 数 据 一 旦 导入 就 不 可 以 修改 。 通 过 查询 可 以 将 表 中 的 数 导 出 到 本 地 或 HDFs。 


Hive 数 据 导 出 有 两 种 方式 : 导出 到 本 地 和 导出 到 HDFS。 接 下 来 将 详细 介绍 两 种 导出 方式 。 


1. 导 出 数据 到 本 地 及 HDFS 


当 在 Hive 中 已 经 完成 分 析 后 ， 需 要 将 数据 导出 为 一 个 文件 (而 不 是 导出 到 另外 一 个 表 ) 给 第 三 方 用 于 其 他 应 用 系统 时 ， 这 时 就 涉及 数据 的 离线 转移 (这 里 指 文件 系统 的 改变 ) 。 这 种 情况 就 需要 这 种 导 


出 方式 。 


导出 数据 具体 语法 如 下 : 


NSERT OVERWRITE [LOCAL] DIRECTORY ' 路 径 ! ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' SELECT 字段 1， 字 段 2， 字 段 3 FROM X44; 


如 果 添 加 LOCAL 关 键 字 ， 那 么 导出 的 是 本 地 目录 ; 如 果 没 有 该 关键 字 ， 那 么 导出 的 是 HDFS 目 录 ，; 


"ROW FORMAT DELIMITED FIELDS TERMINATED BY', ” 在 这 里 指定 导出 数据 的 分 隔 符 为 去 号 。 
- OVERWRITE LOCAL DIRECTORY 表 示 查 询 结果 将 履 盖 本 地 目录 。 
2. 动 手 实践 : 导出 数据 到 本 地 


结合 之 前 学 过 的 知识 ， 创 建 一 张 表 ， 使 用 hive-e 方 式 为 其 导入 数据 ， 并 根据 条 件 查 询 相关 数据 导出 到 本 地 文件 系统 。 请 读者 根据 实验 步骤 ， 完 成 以 下 数据 导出 实验 。 


1) 创建 customer exp 表 ， 参 考 如 下 HiveQL 语 句 。 


CREATE TABLE customer exp ( customerID INT, firstName STRING, lastName STRING, birthday STRING) ROW FORMAT DELIMITED FIELDS TERMINATED BY 、， “7 


2) 导入 数据 hive/data/customer.txt 到 customer exp 表 ， 查 看 如 下 Hive 命 令 。 


hive -e "user test ; LOAD DATA LOCAL INPATH "'/data/customer.txt' OVERWRITE INTO TABLE customer exp;" 


3) 导出 customer_exp 表 中 firstName 以 大 写字 母 S 开 头 (Hive 中 区 分 大 小 写 ) 的 数据 到 本 地 。 
4) 导出 customerlD 大 于 20000 的 数据 到 HDFS。 

思考 : 

1) 数据 导出 到 本 地 的 HiveQL 语 句 应 该 怎样 编写 ? 


2) 如 果 导 出 数据 的 条 件 变 化 ， 又 应 该 如 何 修改 HiveQL 语 句 ? 


3.2.5 HiveOL£ri$ 


HiveQL 是 一 种 类 似 SQL 的 语言 ， 它 与 大 部 分 的 SQL 语法 兼容 ， 但 是 并 不 完全 支持 SQL 标准 ， 如 HiveQL 不 支持 更 新 操作 ， 也 不 支持 事务 ， 它 的 子 查询 和 join 操作 也 很 有 限 ， 这 是 因 其 底层 依赖 于 Hadoop 
云 平台 这 一 特性 决定 的 。 但 其 有 些 特 点 是 SQL 所 无 法 企及 的 ， 例 如 多 表 查 询 、 支 持 create table as select 和 集成 MapReduce 脚 本 等 。 本 节 主 要 介绍 Hive 常 用 的 HiveQL 查 询 操作 。 


1.HiveQL 基 本 语法 


以 下 是 HiveQL 的 基本 语法 ， 理 解 HiveQL 语 句 的 执行 过 程 是 掌握 HiveQL 的 前 提 ， 依 据 HiveQL 执 行 过 程 来 编写 HiveQL 无 疑 是 一 个 快捷 而 高 效 的 思路 。 本 节 将 为 大 家 介绍 HiveQL 的 执行 过 程 及 相关 子 句 。 


HiveQL 基 本 语法 如 下 : 

SELECT [ALL|DISTINCT] 字段 列表 (字段 1 IWE, u) 

FROM 表 1 别名 ， 表 2 AA. 

WHERE ff... 

GROUP BY 分 组 字段 HAVING (组 约束 条 件 ) 

ORDER BY 排序 字段 1 Asc | Desc, 字段 2 Asc|Desc, ... 
[CLUSTER BY 字段 | [DISTRIBUTE BY 字段 ] [SORT BY 字段 ]] 
LIMIT M,N; 


HiveQL 语 句 执行 流程 如 下 : 


1) 系统 先 执行 FROM 子 句 ， 可 知道 从 哪些 表 取 数据 ， 数 据 如 何 取 ， 依 据 什么 条 件 ;接着 执行 WHERE 子 句 ; 然后 基于 前 面 的 结果 进行 分 组 ，HAVING 子 句 对 分 组 约束 ， 若 没有 GROUP BY 子 句 则 整 张 表 
为 一 个 组 。 


2) 执行 SELECT 语句 ， 这 里 只 能 使 用 分 组 中 的 字段 ， 或 分 组 国 数 。 到 此 结果 已 经 有 了 ， 下 面 执行 ORDER BY 或 CLUSTER BY 等 ， 控 制 结果 的 数据 ; 最 后 执行 LIMIT 语 句 ， 限 制 输出 的 记录 数 。 
具体 单个 子 句 的 意义 如 下 。 
: ALL|DISTINCT: ALL 指 返回 有 的 记录 ，DISTINCT 指 返回 其 后 字段 不 重复 的 记录 。 
: GROUP BY: 按照 其 后 的 字段 分 组 ， 通 常 配合 HAVING 使 用 ，HAVING 后 面 的 条 件 是 对 组 的 约束 。 
: ORDER BY: 按 某 个 字段 排序 ， 且 是 全 局 排序 ， 会 启动 一 个 reducer 任 务 。 当 参数 hive.mapred.mode 为 sttict 时 ， 配 合 LIMIT 使 用 。 
: CLUSTER BY: 用 于 查询 时 会 按照 其 后 的 字段 分 发 数据 到 reducer 中 ， 相 同 字 段 的 数据 会 分 发 到 同一 个 reducer 中 ， 且 有 序 。 但 不 保证 一 个 reducetr 中 只 有 相同 字段 的 数据 ， 常 用 于 向 桶 表 中 插入 数据 。 


: DISTRIBUTE BY: 用 于 查询 时 会 按照 其 后 的 字段 分 发 数据 到 reducer 中 ， 相 同 字段 的 数据 会 分 发 到 同一 个 reducer 中 ， 且 无 序 。 但 不 保证 一 个 teducer 中 只 有 相同 字段 的 数据 ， 常 用 于 向 桶 表 中 插入 数据 ， 
常 配合 SORT BY 使 用 。 


SORT BY: 用 于 查询 时 ， 如 果 有 多 个 teducet 任 务 ， 则 能 保证 每 个 teducet 中 的 数据 有 序 ， 全 局 无 序 。 
: LIMIT: LIMIT 语 名 中 M 指 索引 ， 从 0 开始 。N 指 从 M 下 标 开 始 ， 包 含 M 下 标 数据 ， 取 N 条 记录 。 其 中 M 可 以 省 略 ， 默 认为 0。 


以 下 将 结合 具体 的 HiveQL 例 子 进行 讲解 。 在 此 之 前 要 做 如 下 准备 工作 : 将 3.1.5 节 中 的 3 张 表 dept、emp、salgrade 迁 移 到 Hive 中 ， 有 具体 可 以 参考 hive/scriptscreate 3table.hive, 
hive/scripts/load_3table.hive 脚 本 ， 其 数据 分 别 在 hive/data/dept.txt、hive/data/emp.txt、hive/data/salgrade.txt 文 件 中 。 


2.HiveQL ALLIDISTINCT 关 键 字 
DISTINCT 关 键 字 作用 是 去 掉 重 复 的 记录 ，ALL 是 保留 重复 的 记录 ， 默 认为 ALL。 使 用 DISTINCT 关 键 字 需 要 注意 以 下 几 点 : 
: DISTINCT 后 面 可 跟 单个 或 多 个 字段 。 


: DISTINCT 可 用 于 分 组 函数 中 ， 例 如 COUNT (DISTINCT col) 。 


: DISTINCT 必 须 放 在 SELECT 子 多 的 开头 ，SELECT 显 示 的 字段 只 能 是 DISTINCT 指 定 的 字段 ， 其 他 字段 是 不 可 能 出 现 的 。 


以 下 为 使 用 DISTINCT 的 具体 例子 : 


1) 查询 emp 表 所 有 员工 所 在 部 门 情况 。 


select distinct deptno from emp; 


2) 查询 emp 表 相同 部 门 不 同 职位 的 部 门 职位 信息 。 


select distinct deptno, job from emp; 


3.HiveQL 内 置 函 数 
常用 内 置 函 数 有 max () 、min () 、avg () 、sum () 、count () 、concat () 、substr () 、round () 函数 。 辆 数 使 用 注意 以 下 几 点 : 


: max () ~ min () ~ avg () ~ sum () 函数 分 别 计算 某 列 最 大 、 最 小 、 平 均值 及 和 。 

-count () 为 统计 函数 ， 统 计 记 录 的 行 数 ， 例 如 ，count (distinct col) o 

:concat () 为 字符 串 连 接 函 数 ， 例 如 ，concat ('hello, ', 'world') , 25 X, 'hello, world's 

. substr () AFARA, substr (STRINGs， 开 始 下 标 ， 截 取 长 度 ) ， 例 如 ，substt ('201601061121', 0, 8) , 2E 7920160106. 
round () 为 格式 化 函数 ，tound (num, n) ， 其 中 ，num 为 数字 ,，n 为 小 数 点 后 n 位 小 数 。 

以 下 是 使 用 内 置 函 数 具 体 的 例子 : 


1) 查看 emp 表 中 平均 薪水 是 多 少 ， 并 对 其 四 舍 五 入 保留 两 位 小 数 显示 。 


select round(avg(sal),2) from emp; 


2) 统计 emp 表 中 有 多 少 个 不 重复 部 门 。 


select count(distinct deptno) from emp; 


4.HiveQL ORDER BY 关键 字 


ORDER BY 子 句 主要 用 来 按 某 个 字段 排序 ， 且 是 全 局 排序 ， 会 启动 一 个 reducer 任 务 。hive-site.Xxml 文 件 中 当 参 数 hive.mapred.mode 默 认为 nonstrict， 当 设置 为 strict 时 ， 需 要 配合 LIMIT 使 用 ， 原 因 是 
ORDER BY 进行 全 局 排序 时 ， 所 有 的 数据 都 会 发 送 到 一 个 reducer 中 ， 当 数据 量 很 大 时 ， 效 率 会 很 慢 甚 至 出 现 异 常 ， 使 用 LIMIT 可 防止 这 种 情况 发 生 。 


以 下 是 使 用 ORDER BY 子 句 的 具体 例子 : 


1) 将 部 门 编号 不 为 10 的 所 有 员工 按 员 工 编号 升序 排列 。 


select empno,ename from emp where deptno<>10 order by empno asc; 


2) 将 所 有 员工 先 按 部 门 编号 升序 ， 当 部 门 一 样 时 ， 再 按 姓 名 降序 排列 。 


select ename, sal, deptno from emp order by deptno asc,ename desc; 


5.HiveQL GROUP BY 用 法 


GROUP BY 的 作用 是 进行 分 组 ， 按 照 其 后 的 字段 分 组 ， 可 使 用 多 个 字段 进行 分 组 。 通 常 配合 HAVING 使 用 ，HAVING 后 面 的 条 件 是 对 组 的 约束 。 同 时 SELECT 子 句 中 的 字段 必须 是 分 组 中 的 字段 或 分 组 卫 


以 下 是 使 用 GROUP BY 子 句 的 具体 例子 : 查询 emp 表 平均 薪水 大 于 2000 的 部 门 编号 及 平均 薪水 。 


select avg(sal), deptno from emp group by deptno having avg(sal) > 2000; 


6.HiveQL JOIN ON 用 法 
JOIN ON 子 句 主要 用 于 表 的 连接 ， 用 法 是 : JOIN 表 ON 条 件 ， 即 按 某 个 条 件 关联 两 个 表 ， 与 WHERE 子 句 作 用 相同 。 


以 下 是 使 用 JOIN ON 子 句 的 具体 例子 : 查询 emp 表 薪水 大 于 2500 的 员工 姓名 及 所 在 部 门 名 称 。 


select a.ename,b.dname from emp a join dept b on a.deptno-b.deptno where a.sal »2500; 


7.HiveQL 子 查询 
在 有 些 业 务 场景 下 一 个 简单 的 HiveQL 语 句 可 能 无 法 完成 分 析 ， 需 要 两 个 甚至 多 个 才能 完成 分 析 或 利用 子 查询 完成 分 析 。 子 查询 即 是 在 一 个 简单 的 查询 中 内 做 了 另外 一 个 查询 。 
以 下 是 使 用 子 查询 的 具体 例子 : 


1) 在 emp 表 中 ， 碍 询 工资 最 高 的 员工 姓名 、 薪 水 。 


select ename,sal from emp a, (select max(sal) max sal from emp) b where a.sal -b.max sal; 


2) 在 emp 表 中 ， 查 询 工资 高 于 平均 工资 的 员工 姓名 、 薪 水 。 


select ename,sal from emp a, (select avg(sal) avg sal from emp) b where a.sal »b.avg sal; 


8. 动 手 实践 : HiveQL 查 询 


为 了 使 读者 深刻 理解 并 熟练 掌握 HiveQL 查 询 ， 设 计 如 下 动手 实践 。 该 动手 实践 用 到 了 HiveQL 查 询 中 讲解 过 的 相关 知识 ， 请 读者 根据 实验 步骤 ， 完 成 实验 。 
实验 步骤 : 

1) 查询 emp 表 中 所 有 雇员 的 姓名 、 年 薪 。 

2) 查看 emp 表 中 工资 在 800 至 1500 之 间 的 记录 所 有 信息 。 

3) 查询 emp 表 部 门 编号 不 为 10 的 员工 编号 、 姓 名 ， 并 按 员工 编号 升序 排列 。 

4) 查询 emp 表 每 个 部 门 的 编号 、 平 均 工资 。 

5) 统计 emp 表 中 有 多 少 个 不 重复 部 门 。 

6) 查询 emp 表 薪水 大 于 2000 的 员工 的 姓名 及 所 在 部 门 名 称 。 

7) 在 emp 表 中 ， 查 询 工资 最 高 的 员工 的 姓名 、 薪 水 。 

8) 在 emp 表 中 ， 查 询 工 资 高 于 平均 工资 的 员工 姓名 、 薪 水 。 


9) 查询 emp 表 平均 年 薪 小 于 30000 的 部 门 编号 、 平 均 年 薪 。 


1) 在 执行 查询 的 时 候 如 果 涉 及 排序 ， 那 么 Hive 转 换 为 MapReduce 程 序 的 效率 是 否 很 低 ? 


2) 针对 有 Reducer 的 Hive 查 询 语句 ， 是 否 可 以 设置 Reducer 的 个 数 ? 


333 ”动手 实践: 基于 Hive 的 学 生 信息 查询 


前 面 已 讲解 了 Hive 表 定义 、 导 入 导出 数据 、 查 询 等 相关 知识 ， 本 节 是 对 相关 HiveQL 语 句 的 整体 回顾 。 该 动手 实践 全 面 考查 了 HiveQL 语 句 的 相关 知识 ， 包 括 多 种 表 的 创建 方式 、 数 据 导 入 导出 方式 等 。 
请 读者 根据 实验 步骤 ， 完 成 实验 。 


实验 步骤 : 
1) 创建 students 表 ， 表 结构 如 表 3-6 所 示 。 


表 3-6 ”students 表 结构 字段 说 明 


NN 


2) 导入 数据 hive\dataNstudents data.txt 到 students 表 。 


型 


+ 
1 


3) 创建 course 表 ， 包 含 两 个 字段 ， 字 段 course id 为 整 型 ，course_name 为 字符 串 类 型 ， 并 导入 数据 hive\dataNcourse.txt。 
4) 创建 动态 分 区 表 students_ dynamic， 表 结构 如 图 3-8 所 示 。 


5) 按 班级 分 区 ， 从 students 表 导入 数据 到 students_ dynamic 分 区 表 ， 导 入 后 ， 其 HDFS 结 果 如 图 3-9 所 示 。 


id int 
name string 
gender string 
age int 
course id int 
score double 


classes string 
class string 


# Partition Information 
# col name data type 


class 


图 3-8 students dynamic 2544] FHA 


Goto : /data/students dynamic | go 


Go to parent directory 


class-classA|dir | | | E 
E nd 


图 3-9 students dynamicZ" X X HDFS A 3& 2544 


6) 创建 classA、classB、classC 三 张 表 ， 同 时 分 别 导 入 students dynamic 表 中 3 个 对 应 分 区 的 数据 。 导 入 后 ， 其 HDFS 结 果 如 图 3-10 所 示 。 


7) 查询 classA、classB、classC 三 个 班级 的 平均 分 ， 并 导出 到 HDFS 目 录 /data/score_ avg 下 ， 其 HDFS 结 果 如 图 3-11 所 示 。 


图 3-10 ”classA、classB、classC 表 对 应 HDFS 目 录 结 构 


Goto : /data/score avg 


Go back to dir listing 


Advanced view/download options 


92. 16666666666667 
85. 0 


图 3-11 HDFS 上 各 班级 平均 分 
8) 找 出 所 有 学 生 中 ，course id 为 40 的 课程 分 数 最 高 的 同学 ， 输 出 该 同学 姓名 、 分 数 、 课 程 名 称 、 所 在 班级 到 本 地 目录 /data/40_max score, 
思考 : 
1) 第 4 步 中 的 动态 分 区 表 可 以 用 静态 分 区 表 代 蔡 吗 ”为 什么 ? 


2) 如 果 按 成 绩 分 区 可 以 吗 ? 怎么 做 ? 


34 基于 Hive 的 航空 公司 客户 价值 数据 预 处 理 及 分 析 


在 本 节 中 ， 使 用 Hive 针 对 航空 客户 价值 分 析 的 前 期 挖掘 内 容 进行 处 理 和 分 析 ， 即 进行 数据 预 处 理 的 工作 。 接 下 来 的 挖掘 建 模 、 客 户 价值 分 析 等 内 容 将 在 后 面 章节 给 出 。 


344 背景 与 挖掘 目标 


信息 时 代 的 来 临 使 得 企业 营销 重点 从 产品 中 心 转 变 为 客户 中 心 ， 客 户 关 系 管理 成 为 企业 的 核心 问题 。 客 户 关 系 管理 的 关键 问题 是 客户 分 类 ， 通 过 客户 分 类 ， 得 到 不 同 价值 的 客户 ， 采 取 个 性 化 服务 方 


» 


将 有 限 营销 资源 集中 于 高 价值 客户 ， 实 现 企业 利润 最 大 化 目标 。 面 对 激烈 的 市 场 竞争 ， 各 个 航空 公司 都 推出 了 更 优惠 的 营销 方式 来 吸引 更 多 的 客户 。 国 内 某 航 空 公司 面 临 着 常 旅客 流失 、 竞 争 力 下 降 和 
i 空 资源 未 充分 利用 等 经 营 危 机 ， 通 过 建立 合理 的 客户 价值 评估 模型 ， 对 客户 进行 分 群 ， 分 析 比 较 不 同 客户 群 的 客户 价值 ， 制 定 相应 营销 策略 ， 对 不 同 的 客户 群 提供 个 性 化 的 客户 服务 是 必需 的 和 有 效 的 。 
前 该 航空 公司 已 积累 了 大 量 的 会 员 档 案 信 息 和 其 乘坐 航班 记录 ， 经 加 工 后 得 到 如 图 3-12 所 示 的 部 分 数据 信息 。 


EI 


] 


II 


各 个 字段 说 明 如 表 3-7 所 示 。 


表 3-7 航空 信息 属性 表 


属性 名 称 属性 说 明 
MEMBER NO 会 员 卡 号 
FFP DATE 入 会 时 间 
GENDER 性 别 
客户 基本 信息 
FFP TIER 会 员 卡 级 别 
WORK CITY 工作 地 城市 
AGE ^F He 
FLIGHT COUNT 观测 窗口 内 的 飞行 次 数 (单位 : 次 ) 
LOAD TIME 观测 窗口 的 结束 时 间 

乘机 信息 
LAST TO END 最 后 一 次 乘机 时 间 至 观测 窗口 结束 时 长 〈 单 位 : KR) 
AVG DISCOUNT 平均 折扣 率 

(Z£) 
属性 名 称 属性 说 明 

SUM YR 观测 窗口 的 票 价 收入 

乘机 信息 SEG KM SUM 观测 窗口 的 总 飞行 公里 数 (单位 : 公里 ) 
LAST FLIGHT DATE 末次 飞行 日 期 
EXCHANGE COUNT 积分 兄 换 次 数 

S EP SUM ANTH RRIT 

积分 信息 
POINTS SUM 总 累计 积分 
BP SUM 总 基本 积分 


MEMBER NO FFP DATE FIRST FLIGIGENDEFFP TIWORK CITWORK PROVINWORHAGE LOAD TIME FLIGH BP SUM 
14 . 147158 


289047040 
289053451 
289022508 
289004181 
289026513 
289027500 
289058898 
289037374 
289036013 
289046087 
289062045 
289061968 
289022276 
289056049 
289000500 
289037025 
289029053 
289048589 
289005632 
289041886 
289049670 
289020872 
289021001 
289041371 
289062046 
289037246 
289045852 


观测 窗口 的 意思 


2013/03/16 
2012/06/26 
2009/12/08 
2009/12/10 
2011/08/25 
2012/09/26 
2010/12/27 
2009/10/21 
2010/04/15 
2007/01/26 
2006/12/26 
2011/08/15 
2009/08/27 
2013/03/18 
2013/03/12 
2007/02/01 
2004/12/18 
2008/08/15 
2011/08/09 
2011/11/23 
2010/04/18 
2008/06/22 
2008/03/09 
2011/10/15 
2007/10/19 
2007/08/30 
2006/08/16 


2013/04/28 5 
2013/05/16 5 
2010/02/05 58 
2010/10/19 53 
2011/08/25 男 
2013/06/01 5 
2010/12/27 588 
2009/10/21 5 
2013/06/02 £z 
2013/04/24 53 
2013/04/17 女 
2011/08/20 5E 
2013/04/18 5 
2013/07/28 5 
2013/04/01 5 
2011/08/22 5S 
2005/05/06 5S 
2008/08/15 5E 
2011/08/09 53 
2013/09/17 女 
2010/04/18 5 
2013/06/30 58 
2013/07/10 5E 
2013/09/04 5 
2007/10/19 5E 
2013/04/18 5 
2006/11/08 53 


根据 表 3-7 和 图 3-12 所 示 数 据 ， 本 节 主 要 实现 如 下 目标 : 


“ 对 航空 公司 客户 数据 进行 探索 分 析 ， 得 出 数据 分 布 情况 或 基本 规律 ; 


` 根据 数据 探索 分 析 结 果 ， 


3.4.2 分 析 方 法 与 过 程 


进行 数据 预 处 理 ， 


包括 数据 消 


本 案例 针对 前 期 数据 分 析 处 理 部 分 主要 包括 以 下 几 个 


“ 从 航空 公司 的 数据 源 中 进行 数据 抽取 。 


对 抽取 的 数据 集 进行 数据 探索 分 析 ， 
* 根据 数据 探索 分 析 结果 ， 


建 模 所 需 数据 指 将 客户 关系 长 度 L、 


航空 公司 
LRFMC 模型 


1 数据 抽取 


会 员 人 会 时 间 


距 观 测 窗口 结束 | 坐 公 司 飞 机 距 观 测 


的 月 数 


对 数据 进行 预 处 理 ， 


消费 时 间 间 隔 R、 


包括 数据 缺失 值 与 异常 值 的 探索 分 析 。 


窗口 结束 的 月 数 


包括 数据 清洗 、 属 性 归 约 、 数 据 变换 ， 


客户 最 近 


6 

6 乌鲁木齐 
5 

4 S.P.S 

6 SENT 
5 北京 

4 ARCADIA 
4 广州 

6 广州 

6 . 

5 长 春 市 

6 沈阳 

5 深圳 


4 Simi Valley 


5 北京 

6 昆明 

4 

5 NUMAZU 
5 南阳 县 
5 温州 

5 广州 

6 . 

6 

6 武汉 

5 上 海 

6 贵阳 

4 ARCADIA 


新 疆 
北京 


CORTES 


新 疆 
北京 
CA 
广东 
广东 
Xi 


吉林 省 


辽宁 


广东 


北京 
云南 


河南 
浙江 
广东 
北京 


湖北 
上 海 


贵州 


CA 


图 3-12 ”航空 信息 数据 截图 


表 3-8 指标 含 


斤 一 次 乘 | PUE» 
口内 乘坐 公司 飞 | 窗口 内 累计 的 
机 的 次 数 


US 
CN 
CN 
HN 


， 以 过 去 某 个 时 间 点 为 结束 时 间 ， 某 一 时 间 长 度 作 为 完 度 ， 得 到 历史 时 间 范 围 内 的 一 个 时 间 段 。 


青 洗 、 属 性 归 约 、 数 据 变 换 ， 得 到 挖掘 建 模 所 需要 的 数据 。 


进而 得 到 挖掘 建 模 所 需要 的 数据 。 


飞行 里 程 


以 2014-03-31 为 结束 时 间 ， 选 取 宽 度 为 两 年 的 时 间 段 作为 分 析 观 测 窗口 ， 即 抽取 2012-04-01 至 2014-03-31 内 所 有 乘客 的 详细 数据 ， 总 共 62988 条 


2 .数据 探索 分 析 


使 用 Hive 对 数据 进行 缺失 值 分 析 与 异常 值 分 析 ， 得 出 数据 的 规律 以 及 异常 值 。 根 据 原始 数据 进行 数据 探索 分 析 ， 
原始 数据 中 存在 票 价 为 空 值 ， 


票 价 最 小 值 为 0、 折 扣 率 最 小 值 为 0、 总 飞行 公里 数 大 于 0 的 数据 ， 其 可 


会 员 卡 级 别 、 工 作 地 城市 、 工 作 地 所 在 省 份 、 


票 价 为 空 值 的 数据 可 能 是 


工作 地 所 在 国家 、 观 测 窗口 结束 时 间 、 观 测 窗口 乘机 积分 


客户 不 存在 乘机 记录 造成 的 。 


客户 乘坐 0 折 机 票 或 者 积分 


、 飞 行 公里 数 、 飞 行 次 数 、 飞 行 时 间 、 乘 机 时 间 间 隔 、 


分 析 目 标 如 下 : 


分 兑换 造成 。 


客户 在 观测 


记录 。 


2014/03/31 
2014/03/31 
2014/03/31 
2014/03/31 
2014/03/31 
2014/03/31 
2014/03/31 
2014/03/31 
2014/03/31 
2014/03/31 
2014/03/31 
2014/03/31 
2014/03/31 
2014/03/31 
2014/03/31 
2014/03/31 
2014/03/31 
2014/03/31 
2014/03/31 
2014/03/31 
2014/03/31 
2014/03/31 
2014/03/31 
2014/03/31 
2014/03/31 
2014/03/31 
2014/03/31 


记录 包含 了 会 员 卡 号 、 
平均 折扣 率 等 44 个 属性 。 


消费 频率 F、 飞 行 里 程 M 和 折扣 系数 的 平均 值 C 五 个 指标 作为 航空 公司 识别 客户 价值 指标 ， 如 表 3-8 所 示 。 记 为 LRFMC 模 型 指标 数据 。 


客户 在 观测 窗口 内 
乘坐 舱位 所 对 应 的 折 
扣 系 数 的 平均 值 


入 会 时 间 、 性 别 、 年 


分 析 得 到 的 结果 如 表 3-9 所 示 。 


Imm suM vai | -~ T SEG KW SUM | AVG DISCOUNT 


3. 动 手 实践 : 数据 探索 分 析 


表 3-9 ”数据 探索 分 析 结果 表 


数据 探索 分 析 主 要 用 于 发 现 原始 数据 的 分 布 情况 、 基 本 规律 等 ， 为 后 面 的 数据 预 处 理 提 供 依据 ， 根 据 业 务 分 析 ， 得 出 数据 探索 分 析 的 目标 。 
该 实验 根据 数据 探索 目标 使 用 Hive 对 原始 数据 进行 缺失 值 分 析 与 异常 值 分 析 ， 得 出 数据 的 规律 以 及 异常 值 。 请 读者 根据 实验 步骤 ， 完 成 实验 。 
实验 步骤 : 

1) 使 用 hive\script\create air data_base.hive 脚 本 创建 air data_base 表 。 

2) 导入 数据 hiveNscriptNair_ data_base.txt 到 air data_base 表 。 

3) 统计 SUM YR 1, SEG KM SUM, AVG _DISCOUNT 三 个 字段 的 空 值 记录 数 ， 保 存 到 null_count 表 中 。 

4) 统计 SUM YR 1, SEG KM SUM, AVG DISCOUNT 三 个 字段 的 最 小 值 ， 并 保存 到 min_count 表 中 。 

思考 : 

1) 票 价 SUM_YR_1 为 0 与 为 空 一 样 吗 ? 各 自 可 能 是 什么 原因 造成 的 ? 

2) 能 否 先 将 实验 步骤 3 中 3 个 字段 不 为 空 值 的 记录 保存 到 一 张 表 中 ， 在 步骤 4 再 基于 此 表 进 行 分 析 ? 与 以 上 实验 结果 会 有 何 区 别 ? 

4. 数 据 预 处 理 

在 使 用 Hive 针 对 所 有 数据 进行 了 初步 探索 后 ， 就 需要 采用 数据 归 约 、 数 据 清洗 、 与 数据 变换 的 预 处 理 方法 来 针对 数据 进行 进一步 的 处 理 ， 本 节 就 进行 数据 预 处 理 的 相关 分 析 。 


(1) 数据 清洗 


通过 数据 探索 分 析 ， 发 现 数 据 中 存在 缺失 值 、 票 价 为 0 或 折扣 率 为 0 的 数据 等 。 由 于 原始 数据 量 大 ， 这 类 数据 所 占 比 例 较 小 ， 对 结果 影响 不 大 ， 因 此 对 其 进行 丢弃 处 理 。 具 体 数 据 清洗 规则 如 下 : 
丢弃 票 价 为 空 的 记录 


. 丢弃 平均 折扣 率 为 0.0 的 记录 。 
“ 丢弃 票 价 为 0、 平 均 折扣 率 不 为 0(、 总 飞行 公里 数 大 于 0 的 记录 。 


根据 数据 清洗 规则 对 数据 进行 清洗 ， 结 果 如 表 3-10 所 示 。 其 中 先 丢 弃 原始 数据 中 票 价 为 空 的 记录 ， 中 间 结 果 存 储 在 sum_yr_1_not_null 表 ， 再 丢弃 平均 折扣 率 为 0.0 的 记录 ， 中 间 结 果 存 储 在 
avg_discount_not_0 表 ， 最 后 丢弃 票 价 为 0、 平 均 折扣 率 不 为 0、 总 飞行 公里 数 大 于 0 的 记录 ， 最 终结 果 存 储 在 sum_0_seg_avg_not_0 表 。 


表 3-10 ”数据 清洗 结果 表 


sum yr 1 not null 62386 sum 0 seg avg not 0 61587 


(2) 动手 实践 : 数据 清洗 


通过 数据 探索 分 析 ， 发 现 数据 中 存在 缺失 值 ， 票 价 为 0 或 折扣 率 为 0 的 数据 分 布 情况 。 因 此 ， 需 要 对 原始 数据 进行 数据 清洗 ， 请 读者 依据 上 节 数 据 清洗 规则 和 如 下 实验 步骤 完成 实验 。 


实验 步骤 : 


— 


) 丢弃 票 价 为 空 的 记录 ， 将 结果 存储 到 sum_yr_ 1 not nullzz (读者 自 定义 该 表 ， 下 同 ) 。 

2) 丢弃 平均 折扣 率 为 0.0 的 记录 ， 将 结果 存储 到 avg_discount_not 0%. 

3) 丢弃 票 价 为 0、 平 均 折 扣 率 不 为 0、 总 飞行 公里 数 大 于 0 的 记录 ， 将 结果 存储 到 sum_0_seg_avg_not 0 表 。 
思考 : 

1) 各 个 清洗 规则 对 应 的 实际 情况 是 怎样 的 ? 

2) 存储 各 个 规则 清洗 掉 的 数据 到 Hive 中 ， 可 以 使 用 怎样 的 HiveQL 语 句 来 进行 表 数 据 插入 ? 有 哪 几 种 方法 ? 
(3) 属性 归 约 


从 清洗 后 的 数据 中 ， 根 据 航 空 公司 客户 价值 LRFMC 模 型 ， 选 择 与 LRFMC 指 标 相关 的 6 个 属性 : 入 会 时 间 (FFP_DATE) 、 观 测 窗口 的 结束 时 间 (LOAD TIME) 、 观 测 窗口 的 飞行 次 数 
(FLIGHT COUNT) 、 平 均 折扣 率 (AVG_DISCOUNT) 、 观 测 窗口 总 飞行 公里 数 (SEG KM SUM) 、 最 后 一 次 乘机 时 间 至 观察 窗口 末端 时 长 (LAST TO END) 。 经 过 属性 选择 后 的 数据 集 如 表 3-11 所 
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表 3-11 属性 归 约 后 的 数据 集 


下 _TO_ FLIGHT SEG KM SUM 


2014-03-31 | 2014-03-16 — 03-16 | 126850 | 1.02 


3014.03.31 | 20120626 一 一 一 上 一 184730 T 
20140331 | 20091210 | am | s | ems o2 
3014.03.31 | 20091208 60587 E 


(4) 动手 实践 : 属性 归 约 

为 了 构建 航空 公司 客户 价值 LRFMC 模 型 ， 需 要 从 数据 清洗 后 的 数据 中 ， 选 择 与 LRFMC 指 标 相关 的 6 个 属性 ， 相 关 属 性 在 实验 步骤 中 有 说 明 ， 请 读者 根据 实验 步骤 完成 实验 。 
实验 步骤 : 

从 数据 清洗 结果 中 选择 6 个 属性 : FFP DATE, LOAD TIME, FLIGHT COUNT, AVG DISCOUNT, SEG KM SUM, LAST TO_END， 形 成 数据 集 ， 存 储 到 flfas| 表 中 。 
思考 : 

1) 为 什么 这 6 个 属性 是 和 客户 价值 LRFMC 模 型 是 相关 的 ? 可 以 选择 其 他 属性 吗 ? 

2) Hive 的 flfas| 表 是 否 需 要 分 区 ? 

3) 从 清洗 后 的 Hive 表 选取 数据 到 flfasl 表 中 可 用 的 HiveQL 语 句 有 哪些 ? 

(5) 数据 变换 


数据 变换 是 将 数据 转换 成 “适当 的 ”格式 ， 以 适应 挖掘 任务 及 算法 的 需要 。 本 案例 中 主要 采用 的 数据 变换 方式 有 属性 构造 和 数据 标准 化 。 原 始 数据 中 并 没有 直接 给 出 LRFMC5 个 指标 ， 需 要 结合 属性 归 
约 后 的 数据 提取 这 5 个 指标 ， 具 体 如 表 3-12 所 示 。 


表 3-12 提取 的 5 个 LRFMC 指 标 


指标 名 称 计算 方式 
会 员 入 会 时 间距 离 观 测 窗口 结束 的 月 数 (L) L—LOAD TIME-FFP DATE 
客户 最 近 一 次 乘坐 公司 飞机 距 观 测 窗 口 结 束 的 月 数 (R) R—LAST TO END 
客户 在 观测 窗口 内 乘坐 公司 飞机 的 次 数 (F) F—FLIGHT COUNT 
客户 在 观测 时 间 内 在 公司 累计 的 飞行 里 程 M=SEG KM SUM 
客户 在 观测 时 间 内 乘坐 舱位 所 对 应 的 折扣 系数 的 平均 值 (C) C=AVG DISCOUNT 


提取 5 个 指标 的 数据 后 ， 使 用 Hive 对 每 个 指标 取 值 范围 进行 分 析 ， 如 表 3-13 所 示 。 可 以 发 现 5 个 指标 的 取 值 范围 数据 差异 较 大 ， 为 了 消除 数量 级 数据 带 来 的 影响 ， 需 要 对 数据 进行 标准 化 处 理 。 


表 3-13 LRFMC 指 标 取 值 范 围 


最 大 值 114.63 24.37 580717 1.5 


标准 化 处 理 后 ， 形 成 ZL、ZR、ZF、ZM、ZC 五 个 属性 的 数据 ， 如 表 3-14 所 示 。 


表 3-14 标准 化 处 理 后 的 数据 集 


v "m 
ETT 786747 
(390167271 [231908986 


(6) 动手 实践 : 数据 变换 


属性 归 约 结果 中 有 6 个 属性 ， 需 要 基于 此 6 个 属性 计算 出 LRFMC 五 个 指标 ， 用 于 模型 输入 ， 根 据 上 面 的 计算 规则 提取 这 5 个 指标 ， 请 读者 根据 实验 步骤 ， 完 成 此 实验 。 
实验 步骤 : 

1) 构造 LRFMC5 个 指标 ， 并 将 结果 存储 到 Irfmc 表 中 。 

2) 根据 lrfmc 表 ， 统 计 LRFMC 五 个 指标 的 取 值 范围 。 

思考 : 

1) 使 用 HiveQL 如 何 统 计 每 个 指标 的 取 值 范 围 ? 


2) 使 用 HiveQL 可 以 直接 对 数据 进行 标准 化 处 理 吗 ? 如 果 可 以 ， 怎 么 编写 HiveQL 语 句 ? 如 果 不 行 ， 可 以 有 其 他 方法 吗 ? 


35 本章 小 结 


本 章 首先 介绍 了 Hive 的 基本 概念 以 及 Hive 的 体系 架构 ， 包 括 用 户 接 口 、 元 数据 库 、 数 据 存 储 、 解 释 器 等 。 针 对 Hive 的 数据 类 型 、 安 装配 置 等 做 了 简单 介绍 。 通 过 这 些 介绍 可 以 让 读者 对 Hive 有 一 个 完整 
的 认识 ， 并 且 搭 建 好 Hive 开 发 环境 。 在 此 基础 上 ， 对 本 章 的 重点 环节 -HiveQL 语 身 进行 了 详细 的 介绍 ， 比 如 常用 的 Hive 各 种 表 定 义 、 数 据 时 入 导出 以 及 HiveQL 查 询 ， 而 且 每 个 小 节 都 有 对 应 的 动手 实践 ， 帮 
助 读者 理解 对 应 的 HiveQL 语 句 。 如 果 读者 自己 动手 完成 每 个 实验 ， 那 么 对 与 其 对 应 的 HiveQL 语 句 将 会 有 一 个 更 加 深入 的 了 解 。 最 后 一 节 给 出 了 一 个 实际 用 到 Hive 的 项 目 ， 主 要 分 析 了 Hive 在 项 目 开发 中 的 作 
用 ， 也 就 是 用 于 数据 探索 分 析 、 数 据 预 处 理 部 分 。 


通过 本 章 的 学 习 ， 相 信 读 者 对 Hive 会 有 一 个 完整 清晰 的 认识 ， 并 且 读 者 能 够 非常 熟练 地 应 用 各 种 HiveQL 来 对 自己 的 实际 海量 数据 进行 分 析 。 在 已 经 到 来 的 大 数据 时 代 ， 相 信 Hive 将 会 成 为 您 分 析 大 数据 
的 又 一 利器 。 


第 4 章 ”大 数据 快速 读 写 一 HBase 


本 章 主 要 介绍 HBase 的 基本 概念 、 原 理 、 架 构 ， 包 括 数据 模型 、 数 据 读 取 / 写 入 原理 、 模 式 设 计 、RowKey 设 计 等 ， 在 动手 实践 环节 分 析 了 常用 的 HBase shell 操 作 ， 给 出 了 HBase 的 Java API 操 作 及 HBase 与 
MapReduce 交 互 实例 等 。 在 本 章 最 后 ， 通 过 一 个 真实 的 企业 案例 ， 分 析 如 何 应 用 HBase 相 关 技 术 解决 相关 业务 ， 实 现 相 关 功 能 ， 使 读者 可 以 真正 认识 到 HBase 在 企业 及 实际 生产 环节 中 的 应 用 。 


4.1 HBase 概 述 
HBase 是 Hadoop 平 台 下 的 数据 存储 引擎 ， 是 一 个 非 关 系 型 数据 库 ， 即 一 个 NoSQL 数 据 库 。 它 能 够 为 大 数据 提供 实时 的 读 / 写 操作 。 由 于 HBase 具 备 开 源 、 分 布 式 、 可 扩展 性 以 及 面向 列 的 存储 特点 ， 使 
得 HBase 可 以 部 署 在 廉价 的 PC 服务 器 集群 上 上， 处 理 大 规模 的 海量 数据 。 但 如 果 数 据 只 有 干 到 百 万 级 行 ， 最 好 还 是 考虑 使 用 关系 型 数据 库 。 


HBase 最 早 由 Google 的 Bigtable 演 变 而 来 ， 其 存储 的 数据 从 逻辑 上 就 像 一 张 很 大 的 表 ， 并 且 它 的 数据 列 可 以 根据 需要 动态 增加 。HBase 的 存储 的 是 松散 型 数据 ， 也 就 是 半 结 构 化 数据 ， 所 以 存储 维度 是 
动态 可 变 的 ， 也 就 是 说 HBase 表 中 的 每 一 行 可 以 包含 不 同 数量 的 列 ， 并 且 某 一 行 的 某 一 列 还 可 以 有 多 个 版 本 的 数据 ， 这 主要 通过 时 间 戳 范围 进行 区 分 。 


HBase 的 存储 方式 有 两 种 ， 一 种 是 使 用 操作 系统 的 本 地 文件 系统 ， 另 外 一 种 则 是 在 集群 环境 下 使 用 Hadoop 的 HDFS。 为 了 提高 数据 的 可 靠 性 和 系统 的 健壮 性 ， 并 且 发 挥 HBase 处 理 大 型 数据 的 能 力 ， 还 
是 使 用 HDFs 作 为 文件 存储 系统 更 为 稳妥 。 


HBase 比 较 适 合 于 在 线 的 数据 分 析 ， 虽 然 HBase 对 Hadoop 添 加 了 一 些 事务 的 特性 ， 可 以 使 用 户 对 表 进 行 增删 、 改 查 ， 但 是 对 于 事务 支持 还 是 略 显 不 足 。 


我 们 总 是 被 告知 说 HBase 不 同 于 传统 数据 库 ， 那 它 和 传统 数据 库 到 底 有 哪些 不 一 样 呢 ? 表 4-1 显 示 了 其 与 RDBMS 的 特点 对 比 ， 从 其 对 比 中 可 以 看 出 ， 如 果 应 用 场景 是 大 数据 的 话 ， 使 用 HBase 更 为 合 


适 。 


表 4-1 HBase 与 RDBMS 特 点 对 比 


RDBMS 
较 贵 的 多 处 理 器 硬件 
* 针对 单个 或 少 个 市 点 宕 机 没有 影响 需要 额外 较 复杂 的 配置 
GB 到 TB 级 数据 ， 十 万 到 百 万 级 行 
数据 层 一 个 分 布 式 、 多 维度 的 、 排 序 的 Map 行 或 列 导向 


事务 单个 行 的 ACID 支持 表 间 和 行 间 的 ACID 


查询 语言 支持 自身 提供 的 API SQL 


存 吐 量 每 秒 百 万 次 查询 每 秒 干 次 查询 


表 4-2 显 示 了 HBase 与 HDFS 的 对 比 ， 从 中 也 可 以 看 出 HBase 和 HDFS 最 大 的 不 同 是 随机 读 取 。HDFS 对 一 次 写 入 、 多 次 读 取 的 场景 支持 较 好 ， 但 是 对 于 随机 读 取 支持 比较 差 ， 而 HBase 则 弥补 了 这 一 不 
足 ， 这 也 正 是 HBase 得 以 发 展 的 原因 。 


4-2 HBase 与 HDFS 特 点 对 比 


HBase HDFS 
存储 HBase 是 一 个 数据 库 ， 构 建 在 HDFS 之 上 | HDFS 是 一 个 分 布 式 的 文件 系统 ， 用 于 存储 大 量 文件 数据 
查询 HBase 文 持 快速 表 数 据 查 找 HDFS 不 支持 快速 单个 记录 查找 
延迟 性 | 在 十 亿 级 表 中 查找 单个 记录 延迟 低 对 于 批量 操作 延迟 较 大 
读 取 方 式 | 可 以 随机 读 取 数据 只 能 顺序 读 取 数 据 


在 本 书 第 3 章 中 ， 已 对 Hive 进 行 了 介绍 ， 通 过 本 章 前 面 几 段 的 描述 ， 读 者 可 能 觉得 HBase 和 Hive 似 乎 差别 不 大 ， 其 实 不 然 。 表 4-3 显 示 了 两 者 间 的 特点 对 比 。 


表 4-3 HBase 与 Hive 特 点 对 比 


延迟 性 批 处 理 ， 较 高 延迟 
适用 范围 批量 查询 
结构 化 非 结构 化 数据 结构 化 数据 


此 外 ， 在 HBase 之 上 还 可 以 使 用 Hadoop 的 MapReduce 的 计算 模型 来 并 行 处 理 大 规模 数据 ， 这 也 是 HBase 具 有 强大 性 能 的 核心 所 在 。 它 向 下 提供 了 存储 ， 向 上 提供 了 运算 ， 将 数据 存储 与 并 行 计 算 完美 
地 结合 在 一 起 ， 如 图 4-1 所 示 。 
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(Hadoop Distributed File System) 
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图 4-1 HBase 在 Hadoop 生 态 系统 中 的 位 置 


表 4-4 列 出 了 HBase 的 适用 场景 。 


表 4-4 HBase 适 用 场景 与 非 适 用 场景 


适用 场景 非 适用 场景 
针对 已 经 存在 的 Hadoop 集群 只 需要 增加 数据 的 场景 
针对 大 量 的 数据 只 有 批量 处 理 而 不 是 随机 谈 取 的 场 隶 
SER Dos Bii pL S b ak, E A. 复 末 的 访问 模式 CAN joins) 
简单 访问 模式 需要 完全 SQL 文 持 


单个 市 点 可 以 处 理 所 有 数据 的 场景 


从 表 4-4 中 也 可 以 看 出 ， 如 果 使 用 场景 中 的 数据 量 没有 达到 比较 高 的 量 级 或 者 访问 的 模式 较为 复杂 ， 并 不 推荐 使 用 HBase。 


4.2 ”配置 HBase 和 集群 


HBase 的 配置 有 3 种 模式 ， 分 别 为 单机 模式 、 伪 分 布 模式 和 完全 分 布 式 模式 。 其 中 伪 分 布 式 模式 、 完 全 分 布 式 模式 需要 有 Zookeeper、Hadoop 集 群 的 支持 ， 本 章 中 的 模式 是 完全 分 布 式 模式 ， 所 以 需要 


读者 的 集群 环境 中 已 经 配置 好 Hadoop 集 群 和 Zookeeper 集 群 。 
Qi 
&* Zookeeper 集 群 可 由 读者 自行 配置 ， 或 者 直接 使 用 HBase 中 自 带 的 Zookeeper 集 群 ， 不 过 这 里 一 般 使 用 自己 配置 的 Zookeeper 集 群 。 
4.2.1 Zookeeper 简 介 及 配置 


ZooKeeper 分 布 式 服务 框架 是 Apache Hadoop 的 一 个 子 项 目 ， 它 主要 是 用 来 解决 分 布 式 应 用 中 经 常 遇 到 的 一 些 数据 管理 问题 ， 如 : 统一 命名 服务 、 状 态 同 步 服务 、 集 群 管理 、 分 布 式 应 用 配置 项 的 管 
理 等 。 


ZooKeeper 各 个 服务 节点 组 成 一 个 集群 (2n + 1 个 节点 允许 n 个 失效 ) ， 在 ZooKeeper 集 群 中 有 两 个 角色 ， 一 个 是 leader， 主 要 负责 写 服 务 和 数据 同步 ; 另 一 个 是 follower， 提 供 读 服务 ，leader 失 效 后 
会 在 follower 中 重新 选举 新 的 leader。 


ZooKeeper 客 户 端 与 服务 端 关系 如 图 4-2 所 示 。 


在 图 4-2 中 : 


Leadr 


Server Server Server Server Server 


图 4-2 ”Zookeepet 客 户 端 与 服务 端 关 系 
1) 客户 端 可 以 连接 到 每 个 Server， 每 个 Server 的 数据 完全 相同 。 
2) 每 个 follower 都 和 leader 有 连接 ， 接 收 leader 的 数据 更 新 操作 。 
3) Server 记 录 事 务 日 志和 快照 到 持久 存储 。 
4) 大 多 数 Server 可 用 ， 整 体 服务 就 可 用 。 


在 本 书 中 ，ZooKeeper 使 用 的 版 本 是 3.4.6， 其 集群 拓扑 如 图 4-3 所 示 。 


192.168.0.130 
NameNode/JobHistoryServer 
ResourceManager/ 


- SecodaryNameNode/ 
master HMaster 


slave1 slave2 slave3 


192.168.0.131 192.168.0.132 192.168.0.133 
DataNode/ DataNode/ DataNode/ 
NodeManager NodeManager NodeManager 
Zookeeper/ Zookeeper Zookeeper 
HRegionServer HRegionServer HRegionServer 
图 4-3 Zookeeper% HBase % f 42 4| 
其 安装 步骤 如 下 : 
1) 从 Apache 官 方 网 站 下 载 ZooKeeper3.4.6 版 本 (如 果 读 者 下 载 其 他 版 本 ， 则 需要 注意 各 个 版 本 之 间 的 差异 ) 。 


2) 将 下 载 的 压缩 包 和 解压 到 合适 的 位 置 ， 本 书 的 位 置 是 /usr/local/zooKeeper (需要 在 所 有 的 子 节点 部 署 ) 。 命 令 如 下 : 


tar -zxf ZooKeeper-3.4.6.tar.gz -C /usr/local/zooKeeper/ 


3) 配置 环境 变量 。 编 辑 /etc/profile 文 件 ， 在 末尾 加 上 ZooKeeper 配 置 ， 如 下 所 示 : 


export ZK HOME-/usr/local/zooKeeper/ 
export PATH-SPATH:S$ ZK HOME /bin 


4) 配置 文件 zoo.cfg， 在 $ZK_ HOME/Vconf 中 ， 复 制 zoo_sample.cfg 文 件 到 zoo.cfg 文 件 。 命 令 如 下 : 


cd $2ZK HOME/conf 
cp zoo sample.cfg zoo.cfg 


其 配置 内 容 如 代码 清单 4-1 所 示 。 


代码 清单 4-1 zoo.cfg 配 置 文 件 内 容 


dataDir-/usr/lib/zooKeeper 
dataLogDir-/var/log/zooKeeper 
clientPort-2181 

tickTime-2000 

initLimit-5 

syncLimit-2 
server.1-slavel:2888:3888 


server.2-s1ave2:2888:3888 
server.3-slave3:2888:3888 


配置 属性 说 明 如 下 。 
: dataDir: 存储 内 存 中 数据 库 快 照 的 位 置 (需要 读者 先 建立 对 应 目录 ) 。 
: dataLogDir: 事物 日 志 写 入 指定 的 目录 中 (需要 读者 先 建立 对 应 目录 ) 。 
: clientPort: 监听 客户 端 连接 的 端口 。 
C tickTime: 基本 事件 单元 ， 以 毫秒 为 单位 。 它 用 来 控制 心跳 和 超时 ， 黑 认 情 况 下 最 小 的 会 话 超时 时 间 为 两 倍 的 tickTime。 
- initLimit: 允许 follower (相对 于 leadetr 而 言 的 “客户 端 ”) 连接 并 同步 到 leadet 的 初始 化 连接 时 间 ， 它 是 以 tickTime 的 倍数 来 表示 。 当 初始 化 连接 时 间 超过 设置 倍数 的 tickTime 时 间 时 ， 则 连接 失败 。 
- syncLimit: leadetr 与 followet 之 间 发 送 消息 时 ， 请 求 和 应 答 的 时 间 长 度 。 如 果 followet 在 设置 的 时 间 内 不 能 与 leader 通 信 ， 那 么 此 followet 将 被 丢弃 。 


 setvet.x- [hostname]: [bott1]: [port2]: 其 中 x 是 一 个 数字 ， 表 示 这 个 是 第 几 号 服务 器 ， 与 myid (下 面 会 有 myid 的 配置 ) 文件 中 的 id 是 一 致 的 ; 右边 可 以 配置 两 个 端口 ， 第 1 个 端口 用 于 follower 和 leadet 之 间 


的 数据 同步 和 其 他 通信 ， 第 2 个 端口 用 于 Leadet 选 举 过 程 中 投票 通信 。 
5) 配置 myid 文 件 。 在 slave1、slave2、slave3 的 /usr/lib/zooKeeper 目 录 (注意 这 个 目录 是 dataDir 目 录 ) 新 建文 件 myid， 内 容 分 别 为 数值 1，2，3。 


6) 局 动 /关闭 ZooKeeper 集 群 及 状态 查看 ， 命 令 如 下 (注意 如 果 是 启动 和 关闭 命令 ， 则 在 所 有 安装 Zookeeper 服 务 的 节点 都 需要 执行 ) : 


cd $ZK HOME 
bin/zkServer.sh start|stop|status 


t 

pe 

Veg! 3 start |stop|status 表 示 3 个 参数 ， 当 参数 为 start 时 启动 服务 ; 当 参 数 为 stop 时 停止 服务 ; 当 和 参数 为 status 时 查看 服务 状态 。 
P P 


4.2.2 配置 HBase 


1) 从 Apache HBase 官 网 (http://hbase.apache.org/) 下 载 一 个 HBase 的 稳定 版 本 ， 本 书 基于 hbase-1.1.2 版 本 。 将 下 载 的 压缩 包 解 压 到 合适 的 位 置 ， 本 书 的 位 置 是 /usr/local/hbase， 命 令 如 下 : 


tar -zxf hbase-1.1.2.tar.gz -C /usr/local/hbase 


2) 配置 环境 变量 。 编 辑 /etc/profile 文 件 ， 在 末尾 加 上 HBase 配 置 ， 如 代码 清单 4-2 所 示 。 


代码 清单 4-2 ”HBase 环 境 变量 


HBASE HOME —/usr/local/hbase/ 
PATH-$PATH:SHBASE HOME/bin 


export 
export 


Ct ct 


3) 进入 HBase 配 置 目录 $HBASE_HOME/conf， 进 行 相应 配置 。 修 改 hbase-site.xml 文 件 ， 内 容 如 代码 清单 4-3 所 示 。 


代码 清单 4-3 ”hbase-site.xml 配 置 


«configuration» 
«property» 
«name»hbase.rootdir«/name» 
«value»hdfs://master:8020/hbase«/value» 

</property> 

<property> 
<name>hbase .master</name> 
<value>master</value> 

</property> 

<property> 
<name>hbase.cluster.distributed</name> 
<value>true</value> 

</property> 

<property> 
«name»hbase.ZooKeeper.property.clientPort«/name» 
«value»2181«/value» 

</property> 

<property> 
«name»hbase.ZooKeeper.quorum«/name» 
«value»slavel,slave2,slave3«/value» 

</property> 

<property> 
«name»ZooKeeper.session.timeout«/name» 
«value»60000000«/value» 

</property> 

<property> 
«name»dfs.support.append«/name» 
«value»true«/value» 

</property> 

</configuration> 


E 其 中 的 节点 机 器 名 配置 需要 和 前 面 的 图 43 相 一 致 。 
配置 hbase-env.sh， 内 容 如 代码 清单 4-4 所 示 。 


代码 清单 4-4 ”hbase-env.sh 配 置 


export 
export 
export 


HBASE CLASSPATH-/usr/local/hadoop/hadoop-2.6.0/etc/hadoop 
HOME-/usr/local/java/jdk1l.7.0 67 


HBASE MANAGES ZK-false 


cct ct 
Cj 
m 
Di 


配置 regionserver， 内 容 如 代码 清单 4-5 所 示 。 


代码 清单 4-5 regionserverB? E 


lavel 
lave2 
lave3 


nU u 


[0] 


A 注 

L2 EA 
Ve! X 此 文件 的 配置 就 是 HBase 的 子 节点 的 机 器 名 ， 每 个 一 行 。 
4) 运行 HBase， 命 令 如 下 : 


cd /usr/hbase/hbase-1.1.2/bin 
./start-hbase.sh 


4.2.3 动手 实践 : HBase 安 装 及 运行 


1) 需要 先 确保 JDK、Hadoop、Zookeeper 集 群 安 装 成 功 ; 


2) 参考 上 一 节 HBase 相 关 配 置 ， 配 置 HBase; 


3) 依次 启动 Hadoop 集 群 、Zookeeper 集 群 和 HBase 集 群 ，HBase 集 群 启动 方式 为 : 进入 HBase 根 目录 (/usr/local/HBase1.1.2) ， 执 行 sbin/start-hbase.sh 即 可 (如 要 关闭 ， 则 执行 sbin/stop- 
hbase.sh) ; 


4) 查看 HBase 网 页 监控 ， 在 浏览 器 中 访问 地 址 http://master: 16010 (注意 ,不 同 版 本 其 监控 默认 端口 可 能 不 一 样 ， 具 体 请 查看 每 个 版 本 的 帮助 文档 ) ， 即 可 打开 如 图 4-4 所 示 界 面 。 


4.24 动手 实践 : ZooKeeper 获 取 HBase 状 态 


实验 步骤 : 


1) 打开 终端 ， 使 用 hbase zkcli 命 令 进 入 ZooKeeper。 
站 已 ISGE Home Table Details ^ Locallogs ”Log Level Debug Dump Metrics Dump — HBase Configuration 
Master node2.centos.com 


Region Servers 


Memory Requests Storefiles Compactions 


ServerName Start time Requests Per Second Num. Regions 


node3.centos.com, 16020,1463240215985 Sat May 14 23:36:55 CST 2016 0 0 
node4.centos.com, 16020,1463240215780 Sat May 14 23:36:55 CST 2016 0 0 


Total:2 


图 4-4 HBase 主 节点 监控 
. 进入 终端 : hbase zkcli; 
- 查看 当前 存储 的 数据 : 1s/; 
新 建 ZooKeeper 的 node: create - e/test'hello' (-e 选 项 是 指 一 个 短暂 的 节点 ， 如 果 ZooKeeper 连 接 断 开 ， 数 据 也 会 丢失 ) ; 
: 获取 ZooKeepet 节 点 的 值 : get/test; 
- 删除 节点 : delete test; 1s/; 
. 创建 一 个 持久 化 节点 : create/test'hello', 
2) 退出 终端 ， 再 次 进入 终端 : hbase zkcli。 
3) 查看 HBase 相 关 和 存储 数 据 : Is/hbase。 
4) 查看 META 表 所 在 的 RegionServer: get/hbase/meta-region-server, 
5) 查看 HBase 当 前 表 : Is/hbase/table, 
6) 打开 hbase shell 终 端 ， 新 建 表 : hbase shell; create'zktest', 'a', 
7) 重新 回 到 zk， 查 看 表 : Is/hbase/table, 
8) 重新 回 到 hbase shell 终 端 : disable'zktest'; drop'zktest', 
9) 再 次 回 到 zk， 查 看 表 。 
思考 : 
1) 通过 上 述 操作 ， 可 以 指定 Zookeeper 存 储 HBase 哪 些 信息 ? 


2) 如 果 Zookeeper 不 可 用 ，HBase 是 否 可 以 正常 使 用 ?为 什么 ? 


4.3 ”HBase 原 理 与 架构 组 件 


4.3.1 HBase 架 构 与 组 件 


HBase 整 体 结构 由 HMaster、Standby HMaster (备份 节点 ) 、RegionServer 节 点 、Zoo-keeper 集 群 及 HBase 各 种 访问 接口 构成 ， 如 图 4-5 所 示 。 


构架 中 各 个 组 件 介绍 如 下 。 
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图 4-5 HBase 架 构图 
1. 主 节点 HMaster 
HMaster 没 有 单 点 问题 ，HBase 中 可 以 启动 多 个 HMaster， 通 过 Zookeeper 的 Master Election 机 制 保证 总 有 一 个 Master 在 运行 。HMaster 主 要 功能 如 下 : 
1) 负责 Table 和 Region 的 管理 工作 ; 
2) 管理 用 户 对 表 的 增删 改 查 操作 ; 
3) 管理 RegionServer 的 负载 均衡 ， 调 整 Region 分 布 ; 
4) Region Split 后 ， 负 责 新 Region 的 分 布 ; 
5) 在 RegionServer 停 机 后 ， 负 责 失 效 RegionServer 上 Region 迁 移 。 


如 果 HMaster 失 败 ，HBase 表 仍然 可 以 通过 读 写 操作 。 但 是 ， 一 些 HBase 的 操作 需要 等 到 HMaster 启 动 后 才 可 以 。 比 如 ，region 不 能 分 割 ， 新 的 HBase 客 户 端 不 能 找到 region 信 息 (所 以 也 就 访问 不 到 


zx) 。HBase 可 以 配置 高 可 用 性 ， 只 需 安装 配置 一 个 或 多 个 Standby HM -aster。 如 果 一 个 active HMaster 失 败 了 ， 一 个 备用 的 HMaster 将 会 被 选举 为 新 的 active HMaster。 


— 


2. 子 节点 RegionServer 

Regionserver 是 HBase 中 最 核心 的 模块 ， 主 要 负责 响应 用 户 I/O 请 求 ， 向 HDFS 文 件 系统 中 读 写 数据 。 具 体 功 能 如 下 : 
1) 存储 和 管理 regions; 

2) 处 理 读 取 / 写 入 请 求 ; 

3) 当 region 过 多 时 ， 自 动 分 割 regions; 

4) 表 操 作 直接 和 客户 端 连接 。 


如 图 4-6 所 示 ，RegionServer 包 含 一 个 Write-Ahead Log (WAL， 也 叫 Hlog) 、 一 个 Block-Cache 和 多 个 HRegion。 每 个 HRegion 包 含 多 个 HStore， 每 个 HStore 存 储 一 个 column family, ^ 
HRegion 由 一 个 memStore 和 多 个 StoreFile 组 成 ， 每 个 StoreFile 有 一 个 HFile 实 例 。HFile 和 Hlog 在 HDFS 上 存储 。 


3. 表 块 Region 


一 个 Region 存 储 一 个 连续 的 集合 ， 也 就 是 说 在 同一 个 Region 中 数据 是 排序 的 ， 同 时 这 些 数据 在 start key 和 end key 之 间 。Regions 之 间 没 有 重 又 的， 比如 一 个 row key 只 属于 确定 的 一 个 Region。 一 个 
Region 只 被 一 个 Region Server 服 务 ， 这 也 就 是 HBase 保 持 行 强 一 致 性 的 原因 。 


Region Server 
BlockCache 


memstore 


图 4-6 ”RegionServet 内 部 构造 


每 个 Region 就 是 一 部 分 数据 ， 当 这 部 分 数据 随 着 数据 的 插入 而 变 得 太 大 的 时 候 (有 立 值 可 以 设置 ) ， 就 会 造成 split 操 作 。 


RegionServer B 


.META, Region 
bd 4: closeRegion() 
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Zookeeper 
/hbase/region-in-transition/parent region name:SPLITTING 
/hbase/region-in-transition/parent region name:SPLIT 


HDFS regions in Transition: 


..Jparent region name/column family/hfiles 
..Jparent region name/.splits/ 


Master 


parentRegion 


..Jparent region name/.splits/daughterA 
parent region name/.splits/daughterB/column family/reference files 
..JdaughterA/column, family/reference files 


图 4-7 RegionServer 中 Region 的 split 过 程 
在 图 4-7 中 ， 描 述 了 RegionServer 中 的 某 个 Region 的 split 操 作 ， 其 详细 过 程 为 : 


1) RegionServer 决 定 进行 split region 时 ， 首 先 在 ZooKeeper 中 建立 一 个 znode 在 /hbase/region-in-transition/region-name 中 ， 状 态 是 SPLITTING; 


2) Master 使 用 一 个 监听 器 ， 就 会 知晓 这 个 znode 的 状态 ; 


xo 


3 


x 


RegionServer 在 父 Region 目 录 中 产生 一 个 .split 的 子 文件 夹 ; 


4) RegionServer 关 闭 父 Region， 同 时 强制 执行 一 个 cache 的 flush 操 作 ， 同 时 把 Region 标 记 为 下 线 (在 本 地 数据 结构 中 ) ; 


— 


5) RegionServer 在 .splits 中 新 建 两 个 Region 目 录 ，DaughterA、DaughterB， 并 且 创 建 必 要 的 数据 结构 。 接 着 ， 就 会 分 割 store files， 即 创建 Reference files; 


— 


6 


— 


RegionServer 创 建 真正 的 Region 目 录 ， 然 后 把 Reference files 移 到 到 每 个 子 Region 目 录 中 ; 


7 


x 


RegionServer 发 送 一 个 Put 请 求 到 .META. 表 ， 接 着 设置 父 Region 为 下 线 状 态 ， 同 时 添加 子 Region 的 相关 信息 ; 
8) RegionServer 开 启 子 Region， 接 收 并 行 写 入 ; 


9) RegionServer 添 加 子 Region A 和 Region B， 当 前 RegionServer 存 储 RegionA、Re-gion B 的 信息 到 .META. 表 中 。 客 户 端 本 地 会 缓存 .META 表 ， 但 是 当 重 新 请 求 Region-Server 或 .META. 表 时 ， 这 
些 缓存 就 会 失效 ; 


10) RegionServer 更 新 znode 的 状态 为 SPLIT (在 /hbase/region-in-transition/region-name 中 ) ; 
11) split 完 后 ，META 和 HDFS 仍 然 存 储 指向 父 Region 的 Reference files， 这 些 文件 在 执行 Compactions (数据 紧 实 ) 的 过 程 中 会 被 删除 。 
4. 底 层 存 储 结构 HFile 


HFile 是 一 个 HBase RegionServer 的 底层 文件 存储 格式 ， 存 储 表 中 的 cell。cell 数 据 的 写 入 需要 先 对 添加 的 rowkey 进 行 排 序 ， 然 后 添加 HBase 的 列 名 ， 最 后 添加 时 间 戳 。MapReduce 的 shuffle-sort- 
reduce 用 来 对 cell 数 据 进行 排序 ， 然 后 数据 才 真正 写 入 HFile 文 件 。 


HBase 表 存储 数据 在 HFile 里 面 ，HFile 包 含 存 储 的 记录 ， 同 时 包含 一 个 索引 ， 这 个 索引 是 每 个 HBlock 开 始 位 置 的 RowKey。 每 个 HBlock 的 BlockSize 默 认 是 64k。HBase 中 存储 并 没有 存储 所 有 记录 的 索 
引 ， 而 是 一 个 粗 粒 度 的 索引 ， 即 只 存储 每 个 Block 的 开始 位 置 。 


当 HFile 被 从 硬盘 读 取 的 时 候 ， 整 个 Block 都 会 被 加 载 进 BlockCache 中 ，BlockCache 会 一 直 保 留 这 个 Block 直 到 需要 加 载 其 他 Block 的 时 人 息 。BlockCache 中 Block 蔡 换 策略 (算法 ) 可 以 配置 ， 默 认 使 用 
LRU 算 法 。 


5. 通 信服 务 ZooKeeper 


分 布 式 的 HBase 需 要 ZooKeeper 集 群 的 支持 ， 所 有 节点 以 及 客户 端 都 需要 能 够 接 入 ZooKeeper 和 集群。 默认 ，HBase 提 供 一 个 ZooKeeper 和 集群， 在 HBase 启 动 或 关闭 时 ， 同 时 启动 或 关闭 ZooKeeper。 但 
是 ， 也 可 以 提供 一 个 独立 的 ZooKeeper 集 群 ， 只 需要 告诉 HBase ZooKeeper 集 群 的 地 址 即 可 。 在 conf/hbase-env.sh 里 面 配 置 HBASE_ MANGES ZK 为 true， 则 是 使 用 HBase 自 带 的 ZooKeeper， 否 则 ， 则 
需要 另外 的 ZooKeeper 集 群 。 工 程 应 用 中 ， 一 般 都 会 配置 外 置 的 ZooKeeper 集 群 ， 这 样 一 是 方便 管理 ， 二 是 可 以 供 其 他 软件 使 用 。 


6. 访 问 接口 
使 用 HBase RPC 机 制 可 以 和 HMaster、RegionServer 进 行 通信 ， 包 含 访问 HBase 的 接口 ， 并 维护 Cache 来 加 快 对 HBase 的 访问 ， 比 如 Region 的 位 置信 息 。 读 取 HBase 可 以 通过 Java API, REST 


interface, Thrift gateway 或 者 HBase shell 接 口 。 


4.3.2 ”HBase 数 据 模 型 


HBase 是 一 个 类 似 于 Bigtable 的 分 布 式 数据 库 ， 它 是 一 个 稀 下 的 长 期 存储 的 (存在 硬盘 上 ) 、 多 维度 的 、 排 序 的 映射 表 。 这 张 表 的 索引 是 行 天 键 字 、 列 关键 字 和 时 间 戳 。HBase 中 的 数据 都 是 比特 数 
组 ， 没 有 类 型 (如 果 使 用 字符 串 或 者 整 型 ， 那 么 需要 转换 为 比特 数组 类 型 ) 。 


从 图 4-8 可 以 看 出 ， 可 以 看 到 HBase 表 有 3 个 维度 ， 这 些 维度 有 : 行 键 (rowkey) 、 列 索引 (column family+ column qualifier) 、 时 间 戳 (timestamp) 。 用 户 在 表格 中 存储 数据 ， 每 一 行 都 有 一 个 
可 排序 的 主键 和 任意 多 的 列 。 由 于 是 黎 跑 存储 ， 所 以 同一 张 表 里 面 的 每 一 行 数据 都 可 以 有 截然 不 同 的 列 。 不 同 的 列 ， 使 用 不 同 的 qualifier 即 可 。 


A l l 
ColumnFai- 
mly:age 


9, 
S d 


. S / Column Key 
mp string=family:qualifier 


ColumnFaimly: 
name 


图 4-8 HBase 数 据 模型 


HBase 数 据 存储 可 以 看 成 <rowkey，column family: column qualifier, timestamp» -»cell (value-t2, value-t3...) , 
每 次 获取 的 时 候 ， 获 取 的 是 最 新 的 值 (如 果 在 获取 时 指定 版 本 ， 那 么 获取 的 就 是 指定 版 本 的 值 ) 。 


即 Map 数 据 结 构 。 每 个 确定 的 cell 可 以 存储 不 同 的 值 版 本 (version) ， 但 是 


HBase 的 数据 存储 按照 rowkey 进 行 排序 ， 同 时 多 个 连 
Region 包 含 多 个 HFile。 


续 的 rowkey ( 相 邻 ) 组 成 一 个 Region; 同时 ，column family 是 分 开 存 储 的 ， 也 就 是 一 个 HFile 文 件 只 存储 一 个 column family 的 数据 。 一 


图 4-9、 图 4-10 显 示 了 HBase 的 数据 存储 的 一 些 特性 ， 读 者 可 以 上 传 一 些 示例 数据 到 HBase， 然 后 查看 相关 监控 信息 ， 看 是 否 可 以 和 理论 对 应 。 


Region Server 


test_1,,1461495663686.7660149 
6b21d0b354cbb4a5d09636524. 


node4 centos.c 
om:16020 


test 1,rk- 
100,1461495663686 2dec0d485c 
99df74d24ea7cc6b28eb20. 


node4 centos.c 
om: 16020 


node3.centos.c 
om: 16020 


test 1,rk- 
400,1461495663686.72667d4db9 
dc26bc3eec3e431e0c5fd3. 


node3 centos.c 
om: 16020 


test 1,rk- 
700,1461495663686.be146e39f4f 
1b676982261cb0969820d. 


4.3.3 


[roctGnodc2 ~]# hadcop fs -ls 


16/04/24 19:09:08 WARN util.NativeCodeLoader: 


drwxr-xr-x 
eh a N 
drwxr-xr-x 
IWIYEI—IEI-—X 
Eh Eh E 
drwxr-xr-x 
drwxr-xr-x 
dp ET 
af5h58a 
drwxr-xr-x 
TEN Cg 
17a5438. 


drwxr-xr-x 


dore m 
一 


—rw-r--r-- 
GrIWAXI-XI-X 
—frw-r--r--— 
dQIWAI-XI-Xx 
drwxr-xr-x 
CEW-BI--I-- 
D5db6e0 

drwxr-xr-x 
tl m rns 
&2Za9092. 

drwxr-xr-x 
CEWCE-—I-- 
drwxr-xr-x 


SEM de cu rt 


1. 数 据 读 取 


如 图 4-11 所 示 ， 在 HBase 中 ，.META. 同 样 是 HBase 的 一 个 表 (HBase 系 统 表 ) 
ZooKeeper 的 节点 中 读 取 包含 .META. 的 RegionServer 地 址 。 
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root 


root 


- root 


root 
root 
root 
root 


root 
root 


root 
root 
root 
root 
root 
root 
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root 
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root 
root 
root 
root 


supergroup 
supergroup 
supergroup 
supergroup 
supergroup 
supergroup 
supergroup 
supergroup 


supergroup 
supergroup 


supergroup 
supe rgroup 
supergroup 
supergroup 
supergroup 
supergroup 
supergroup 


supergroup 
supergroup 


supergroup 
supergroup 
supergroup 
supergroup 


读 取 / 写 入 HBase 数 据 


Unable 
2016-04-24 
2016-04-24 
2016-04-24 

) 2016-04-24 
2016-04-24 
2016-04-24 

| 2016-04-24 

7 2016-04-24 


2016-04-24 
7 2016-04-24 


2016-04-24 
2016-04-24 
2016-04-24 
2016-04-24 
2016-04-24 
2016-04-24 
7 2016-04-24 


2016-04-24 
7 2016-04-24 


) 2016-04-24 
) 2016—04-24 
2016-04-24 
2016-04-24 


13: 
19: 


15: 
193: 
I3: 
19: 
Ig: 
13; 
19.6 


195: 
T9: 


13: 
19: 
19: 
19; 


图 4-9 HBase 数 据 存 储 监 控 


-R /hbasc/data/default/test 1 

to load nativze-hadocp library for your platform.. 
195: 
19: 
13: 
19: 
13: 
T5: 
19:06 
197 


using builtin-2ava classes where applicable 
/hbass/data/default/test 1/.tabledesc 
/hbase/data/default/test 1/.tabledesc/.tableinfo.0000000001 
/íhbase/data/default/test l/.t 
mmi P mista Dc cil tm 1/2dec0d485c939d£74d246a7cc6b28o6b20 
decÜd4 | .regioninfo 
masa usta anand/ bo "1/2dec0d485c )9d£74d2:457c5520u20) tmp 
/hbase/data/defaı ult/test 1 /2dec0d485239df74d24ea7cc6528eb20( c £1 P 
/hbase/data/default/test 1/2dec0d485c939df74d24ea7cc6D28eb20/cfl/51c6cfle€fac44b758db745eO0f 


/hbase/data/default/test 1/2dec0d485c39df74d24ea7cc6b28eb20fc£2) 
/hbasc/data/dcfault/test 1/2dec0d485c99df£74d24ca7cc6b28cb20/c£2/1hüb9cf2fz25472£91be2£2a9 


/hbase/data/default/test 1/2decOd485c39df74d24ea7cc6028eb20/recovered.edits 
/hbase/data/default/test 1/2dec0d485239df74d24ea7cc6528eb20/recovered.edita/2 
fhbase/data/default/test 1/72€667d4Gb9dcZ6bc3eec3e43le0cS5fd3 
/hbaso/data/default/test 1/72€667d4db9dc26bc3eoc3e431o00c5£d3/.regioninfo 
/hbase/data/default/test  1/72€67d4db9dc26bc3eec3e431e0c5 fd3/ .tmp 
/hbase/data/dcfault/test 1/72667d4db9dc26bc3cecc3e431c0c5fd3 
/hbase/data/default/test_1/72667d4db9dc26bc3eec3e431e0c5fd3/cf1/dd845b2f5q4414752a0132653e 


.seqid 


/hbase/data/default/test 1/72667d4db9dc26bc3eec3e431280c5£43 
fhbase/data/default/test 1/72667d4db9dc26bc3eec3e431e0c5fd3/cf2/314654aa77£c4a3294795002£f 


/hbase/data/default/test 1/72667d4db9dc26bc3eec3e431as0c5fd3/recovered.edits 
/hbase/data/default/test 1/72667d4db9dc26bc3eec3e431e0cS5fd3/recovered.edits/2.seqid 


6 [/hbasse/data/default/test 1/7660149€b218d0b354cbb4a5809636524 


1 /hbase/data/default/test 1/7660145€b21d0b354cbb4a5G80963€521/ .regioninfo 


图 4-10  HBaseZt4E JEHDFS 4 £1 A Aik 


客户 端 需要 先 确定 .META. 表 的 位 置 (.META. 表 的 位 置 存放 在 ZooKeeper 节 点 中 ， 由 Master 控 制 ) ， 客 户 端 直接 从 


Table 


.META. 


ZooKeeper 


META. 
location 
Row per 
table region 


图 4-11 HBase 表 数据 查询 


客户 端 会 保存 一 个 Region 地 址 的 缓存 ， 这 样 在 下 次 访问 同一 个 Region 时 就 不 需要 再 次 去 访问 .META. 表 来 获取 Region 的 地 址 了 。 在 Region 进 行 split 或 移动 到 其 他 RegionServer 时 ， 客 户 端 访问 本 地 缓 
存 时 会 获得 一 个 异常 ， 接 着 缓存 就 会 再 次 访问 .META. 表 ， 同 时 更 新 本 地 缓存 。 


如 图 4-12 所 示 ，.META. 表 用 于 存储 Regions 的 位 置 ， 包 含 RegionServer name 和 Region 标 识 符 : Table name、SstartKey。 通 过 查找 StartKey 和 下 一 个 Region 的 StartKey， 客 户 端 可 以 确定 当前 
Region 包 含 的 所 有 RowKey。 


Region 4 


Table Region ID 
machine host | 
| machine04.host ! u 
machine08.host Re | Row 46 |E 
machine0] host = o 
|testb | Row 93 | —3 — [machine0s.host Hoko] pots 
-| 315 
R 63 |9 

mr- : 


machine01 .host 


META 


l 
users | RowKG| —22 | machine08-host [acis 22 — Me 
图 4-12 .META. 表 存储 信息 
2. 数 据 写 入 
如 图 4-13 所 示 ，HBase 数 据 写 入 表 的 过 程 可 以 描述 如 下 : 
1) 客户 端 通过 ZooKeeper 和 HMaster 沟 通 ，HMaster 分 配 要 写 入 的 RegionServer， 客 户 端 直接 和 RegionServer 通 信 ， 写 入 数据 到 Memstore,; 
2) 在 写 入 到 Memstore 时 ， 也 会 写 一 份 数据 到 HLog (WAL) ， 防 止 Memstore 数 据 丢失 或 RegionServer 失 败 而 不 能 恢复 ; 
3) 客户 端 写 入 到 MemSstore 的 数据 过 大 时 ，Memstore 会 溢 满 ， 就 会 Flush 成 一 个 StoreFile; 
4) StoreFile 增 长 到 一 定 阅 值 ， 会 进行 Compact 合 并 操作 ， 即 多 个 StoreFile 合 并 成 一 个 StoreFile (里 面 涉及 版 本 合并 和 数据 删除 ) ; 


5) 当 单 个 StoreFile 大 小 超过 一 定 阅 值 后 ,会 触发 Split 操 作 ， 即 把 当前 Region 分 割 成 2 个 Region。 


4.3.4 RowKey 设 计 原则 


HBase 中 的 行 数据 按照 RowKey 的 字母 表 进行 排序 (这 是 对 scan 的 优化 ) ， 以 存储 相关 的 行 数据 。 这 样 ， 进 行 读 取 时 ， 可 以 把 和 当前 RowKey 相 关 的 数据 (比如 当前 RowKey 是 22， 那 么 可 以 读 取 
RowKey 为 21 或 23 的 数据 ) 进行 读 取 。 


HRegionServer HRegionServer 


CT ULlLLLILLILLLLLLIL 


DataNode DataNode DataNode DataNode DataNode 


图 4-13 HBase 数 据 写 入 流程 


但 是 ， 弱 的 RowKey 设 计 会 导致 热点 问题 。 什 么 是 热点 问题 (Hotspotting) 呢 ? 当 客户 端 对 一 个 节点 请 求 大 量 数据 时 会 出 现 这 样 的 问题 。 这 样 的 问题 可 能 出 现在 写 入 、 读 取 或 其 他 操作 的 时 候 。 
Hotspotting 造 成 的 网 络 拥堵 可 能 降低 Region 的 可 用 性 ， 同 时 还 可 能 影响 与 当前 Region 在 同一 个 RegionServer 的 其 他 Region。 


HBase 中 表 的 RowKey 设 计 需 要 遵循 下 面 的 准则 。 
1.RowKey 唯 一 


RowKey 是 按照 字典 排序 存储 的 ，RowKey 相 同 ， 会 造成 数据 冲突 (不同 版 本 除外 ) 。 同 时 ， 需 要 注意 将 经 常 一 起 读 取 的 数据 存储 到 一 块 ， 这 样 不 管 是 读 取 还 是 写 入 都 会 提高 效率 。 


2. 长 度 尽量 小 
HFile 中 存储 的 是 键 值 对 (KeyValue) ， 如 果 RowKey 过 大 ， 那 么 存储 的 值 (Value) 就 会 相对 较 少 ， 影 响 HFile 的 效率 。 同 时 ， 如 果 Memstore 缓 存 的 数据 中 的 RowKey 过 大 ， 同 样 会 影响 检索 效率 。 
3. 避 免 Hotspotting 
如 果 知 道 数据 的 访问 模式 或 者 数据 的 分 布 规律 ， 那 么 可 以 使 用 下 面 的 几 种 方式 来 减少 或 者 避免 出 现 热 点 问题 。 
(1) 随机 数 
在 RowKey 前 面 加 上 一 个 固定 长 度 的 随机 数 。 例 如 : RowKey 是 时 间 戳 ， 那 么 可 以 在 RowKey 前 加 上 一 个 随机 的 字符 ， 即 可 达到 负载 均衡 (但 是 ， 这 样 会 加 大 RowKey 的 长 度 ， 所 以 需要 注意 随机 数 不 要 
太 长 ) 。 

(2) 哈 希 

直接 对 RowKey 进 行 哈 希 (hash) ， 对 类 似 于 时 间 戳 的 RowKey 直 接 求 其 hash 值 ， 也 可 以 到 达 避 免 Hotspotting 的 目的 。 

(3) 反 转 RowKey 

反 转 RowKey， 针 对 于 类 似 URL 的 RowKey， 可 以 反 转 RowKey， 即 可 达到 避免 Hotspotting 的 目的 。 

(4) 合成 RowKey 

可 以 把 column family 或 value 的 一 部 分 合成 ， 作 为 RowKey。 


HBase 中 RowKey 设 计 非 常 重要 ， 往 往 决 定 HBase 的 使 用 性 能 ， 好 的 RowKey 设 计 可 以 带 来 比较 高 的 性 能 提升 。 但 是 ， 在 HBase 中 ， 除 了 RowKey 设 计 ， 还 需要 注意 其 他 事项 ， 比 如 : HBase 中 没有 Join 
的 操作 ， 如 果 需 要 使 用 的 场景 ， 那 么 建议 使 用 单 表 (大 表 ， 同 时 包含 要 关联 的 两 个 表 ) ; HBase 的 列 簇 一 般 设计 为 1 ~ 2 个 ， 这 个 主要 是 为 了 在 进行 一 些 合并 操作 的 时 候 提 升 性 能 ; HBase 表 对 简单 访问 模式 
支持 较 好 ， 针 对 复杂 访问 模式 支持 较 差 ， 这 时 就 需要 考虑 是 继续 使 用 HBase 还 是 使 用 其 他 框架 。 


4.3.5 ”动手 实践 : HBase 数 据 模型 验证 


1) 使 用 命令 打开 HBase Shell 终 端 : 


hbase shell; 


2) 在 HBase Shell 终 端 中 确 


定 是 否 有 test 表 ， 如 果 有 则 删除 : 


EEA 


list ; disable ‘test’; drop "'test'; 


3) 新 建 test 表 ， 并 指定 两 个 column family, 44^Region, 


create 'test' ,'cfl','cf2',(SPLITS-»['rk-100','rk-400','rk-700']] 


4) 往 test 表 中 插入 数据 : 


for i in 'O'h! 


put 'tes 


put 'tes 


end end end 


ttp: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/16328/O0EBPS/Text/..'9' do for j in 'O'http://www.hzcourse.com/resource/readBc 
L^ EkerPLEITUITHELE) CEL = 
t',"rk-$(iJjf(j)H(k)","cCf2:4(3 H (Kk) -2", E (3 HE CK)" 


5) 查看 HDFS 中 对 应 表 数 据 以 及 HBase 表 监控 信息 。 


He. 


1) 插入 数据 后 ， 查 看 HDFS 文 件 中 是 否 有 数据 ? 为 什么 ? 执行 什么 操作 才能 查看 到 | 数据 ? 


2) 查看 到 的 文件 分 别 对 应 什么 信息 ? 


4.4 HBase Shell 操 作 


4.4.4 HBase 常 用 Shell 命 令 


HBase 可 以 使 用 Shell 进 行 一 些 常规 的 HBase 增 删改 查 以 及 数据 库 表 管 理 操作 ， 下 面 介绍 几 种 常用 的 HBase Shell 命 令 操作 。 


1) 启动 。 打 开 终端 ， 


直接 输入 : hbase shell, 


[zxootenode80 ~] # hbase shell 


SLFA4J: 
SLF4J: 


(注意 ， 需 要 配置 HBase 相 关 环 境 变 量 ， 否 则 需要 进入 /usr/local/hbase1.1.2/bin 目 录 执 行 ) 即 可 启动 ， 如 图 4-14 所 示 。 


Class path contains multiple SLF4J bindings. 
Found binding in [jar:file:/usr/local/hbase-1.1.2/1ib/s1f4j-10g4j12-1 


.,7.5.3arl/org/slf4j/impl/StaticLoggerBinder.class] 

SLFÁJ: Found binding in [jar:file:/usr/local/hadoop-2.6.4/share/hadoop/commo 
n/lib/slf4j-10g4312-1.7.5.jarl/org/slf4j/impl/StaticLoggerBinder.class] 

See http://www.slf4j.org/codes.html$multiple bindings for an explanat 


SLF4J: 


lon. 


SLF4J: 


2016-05-31 05:50:03,302 WARN 
ative-hadoop library for your platform... using builtin-java classes where a 
pplicable 
HBase Shell; enter 'help«RETURN»' for list of supported commands. 

Type "exit-RETURN»" to leave the HBase Shell 

Version 1.1.2, rcc2b70cf03e3378800661ec5cablileb4á3fafeO0fc, Wed Aug 26 20:11:2 
7 PDT 2015 


hbase (main):001:0» 


Actual binding is of type [org.slf4j.impl.Log4jLoggerFactory] 


[main] util.NativeCodeLoader: Unable to load n 


图 4-14  HBase shell 启 动 界面 


2) 查看 表 。 使 用 list 命 令 可 以 查看 所 有 表 ; 如 果 需 要 查看 某 个 表 (已 知道 表 名 ) 是 否 存 在 ， 那 么 可 以 使 用 exist 命 令 ， 如 代码 清单 4-6 所 示 。 


代码 清单 4-6 查看 表 命令 


hbase (main):002:0» help 'list' 


tables in hbase. Optional regular expression parameter could 


List all 

be used to filter the output. 
hbase» list 

hbase» list 'abc.* 

hbase» list 'ns:abc.* 

hbase» list 'ns:.*' 


Examples: 


hbase (main):003:0» help 'exists' 
Does the named ! 
hbase» exists 't1 
hbase» exists 'nsl:tl' 


table exist? 
"^s 


3) 新 建 表 。 其 命令 是 create， 和 传统 数据 库 DDL 的 基本 操作 一 样 ， 不 过 其 参数 是 不 一 样 的 ， 可 以 在 新 建 表 的 时 候 设 置 列 复 、 每 个 列 复 的 版 本 数 或 其 他 参数 ， 如 代码 清单 4-7 所 示 。 


代码 清单 4-7 create 命令 


法 及 示例 


hbase (main):009:0» help 'create' 
Creates a table. Pass a table name, and a set of column family 


specifications (at least one), and, optionally, table configuration. 
Column specification can be a simple string (name), or a dictionary 
(dictionaries are described below in main help output), necessarily 
including NAME attribute. 
Examples: 
Create a table with namespace-ns1 and table qualifier-tl1 
hbase» create 'nsl:tl', (NAME => 'f1', VERSIONS => 5] 
Create a table with namespace-default and table qualifier-tl 
hbase» create 'tl1', (NAME => 'f1'), (NAME => 'f2']j, (NAME => 'f3'] 
hbase» 4 The above in shorthand would be the following: 
hbase» create 'tl1', 'f1', 'f2', 'f3' 
hbase» create 't1', (NAME => 'f1', VERSIONS => 1, TTL => 2592000, BLOCKCACHE => true) 
hbase»create 't1', (NAME => 'f1', CONFIGURATION => ('hbase.hstore.blocking-StoreFiles' => '10'}} 
Table configuration options can be put at the end. 
Examples: 


hbase» create 'nsl:ti', “fly SPLITS => ['10', '20', '30', '40'] 


hbase» create 't1', 'f1', SPLITS => ['10', '20', '30', '40'] 
hbase» create 'tl', 'f1', SPLITS FILE => 'splits.txt', OWNER => 'johndoe' 


hbase» create 'tl', (NAME => 'f1', VERSIONS => 5}, METADATA => { 'mykey' => 'myvalue' } 
hbase» 4 Optionally pre-split the table into NUMREGIONS, using 
hbase» 4 SPLITALGO ("HexStringSplit", "UniformSplit" or classname) 
hbase» create 't1', 'f1', (NUMREGIONS => 15, SPLITALGO => 'HexStringSplit') 
hbase» create 't1', 'f1', (NUMREGIONS => 15, 
SPLITALGO => 'HexStringSplit', 
REGION REPLICATION => 2, 


CONFIGURATION => ('hbase.hregion.scan.loadColumnFamiliesOnDemand' => 'true'j] 


You can also keep around a reference to the created table: 

hbase» t1 create 't1', 'f1' 

Which gives you a reference to the table named 'tl', on which you can then 
call methods. 


4) 描述 表 ， 即 查看 表 的 数据 结构 。 同 样 使 用 describe 即 可 ， 如 代码 清单 4-8 所 示 。 
代码 清单 4-8 describe 命 令 用 法 


hbase (main):010:0» help 'describe' 

Describe the named table. For example: 
hbase» describe 't1' 
hbase» describe 'ns1:tl1' 

Alternatively, you can use the abbreviated 'desc' for the same thing. 
hbase» desc 't1' 
hbase» desc 'nsl:tl' 


5) 修改 表 。 在 传统 数据 库 中 ， 可 以 使 用 alter 来 修改 已 经 存在 的 表 ， 同 样 ， 在 HBase 也 可 以 使 用 alter 来 修改 HBase 表 。 但 是 需要 注意 ， 此 操作 执行 期 间 ，HBase 表 是 不 可 用 的 。 其 用 法 如 代码 清单 4-9 所 


示 。 
代码 清单 4-9 ”alter 命 令 用 法 


hbase (main):011:0» help 'alter' 

Alter a table. If the "hbase.online.schema.update.enable" property is set to 
false, then the table must be disabled (see help 'disable'). If the 
"hbase.online.schema.update.enable" property is set to true, tables can be 
altered without disabling them first. Altering enabled tables has caused problems 
in the past, so use caution and test it before using in production. 


You can use the alter command to add, 
modify or delete column families or change table configuration options. 
Column families work in a similar way as the 'create' command. The column family 


Specification can either be a name string, or a dictionary with the NAME attribute. 
Dictionaries are described in the output of the 'help' command, with no arguments. 


For example, to change or add the 'f1' column family in table 't1' from 
current value to keep a maximum of 5 cell VERSIONS, do: 


hbase» alter 't1', NAME => 'f1', VERSIONS => 5 

You can operate on several column families: 

hbase» alter 'tl', 'fl', (NAME => 'f2', IN MEMORY => true), (NAME => 'f3', VERSIONS => 5) 
To delete the 'f1' column family in table 'ns1:tl1', use one of: 


hbase» alter 'ns1: 
hbase» alter 'ns1: 


', NAME => 'f1', METHOD => 'delete' 
', 'delete' => 'f1' 


ct ct 
3 pa 


6) 删除 表 。 其 命令 和 传统 数据 库 一 样 ， 但 是 需要 注意 ， 在 HBase 中 ， 如 果 要 删除 一 个 表 ， 那 么 需要 先 disable 这 个 表 ， 即 使 其 不 可 用 。 其 用 法 如 代码 清单 4-10 所 示 。 


代码 清单 4-10 drop 命令 用 法 


hbase (main) :025:0> help 'drop' 
Drop the named table. Table must first be disabled: 
hbase» drop 't1' 
hbase» drop 'ns1:t1' 
hbase (main) :026:0» help 'disable' 
Start disable of named table: 
hbase» disable 't1' 
hbase» disable 'nsl:tl' 


7) 插入 /更 新 数据 。 在 HBase 中 不 管 是 插入 还 是 更 新 数据 使 用 的 都 是 put 命 令 ， 在 其 内 部 使 用 版 本 来 控制 。put 命 令 用 法 如 代码 清单 4-11 所 示 。 
代码 清单 4-11 命令 用 法 


hbase (main) :028:0> help 'put' 
Put a cell 'value' at specified table/row/column and optionally 
timestamp coordinates. To put a cell value into table 'nsl:tl' or 'tl1' 
at row 'rl' under column 'c1' marked with the time 'tsl', do: 


hbase» put 'nsl:tl', 'rl1', 'c1', 'value' 
hbase» put 't1', 'r1i', 'c1', 'value' 
hbase» put 't1', 'ri', 'c1', 'value', tsl 


8) 获取 数据 。HBase 中 ， 获 取 数 据 主要 有 两 种 方式 : 一 种 是 scan， 一 种 是 get。 如 果 使 用 scan 可 以 不 用 设置 任何 参数 ， 这 时 是 全 表 扫 描 ; 如 果 使 用 get， 那 么 需要 指定 Rowkey。 其 用 法 如 代码 清单 4- 
12 所 示 。 


代码 清单 4-12 ”scan/get 命 令 用 法 


hbase (main) :029:0> help 'scan' 

Scan a table; pass table name and optionally a dictionary of scanner 
Specifications. Scanner specifications may include one or more of: 
TIMERANGE, FILTER, LIMIT, STARTROW, STOPROW, ROWPREFIXFILTER, TIMESTAMP, 
MAXLENGTH or COLUMNS, CACHE or RAW, VERSIONS 


f no columns are specii 


fied, all columns will be scanned. 


=> 'xyz'] 


ONS => 4] 


To scan all members of a column family, leave the qualifier empty as in 
'col family:'. 
The filter can be specified in two ways: 
1.Using a filterString - more information on this is available in the 
Filter Language document attached to the HBASE-4176 JIRA 
2.Using the entire package name of the filter. 
Some examples: 
hbase» scan 'hbase:meta' 
hbase» scan 'hbase:meta', (COLUMNS => 'info:regioninfo'] 
hbase» scan 'ns1:t1', (COLUMNS => ['c1', 'c2'], LIMIT => 10, STARTROW => 'xyz'] 
hbase» scan 'tl1', (COLUMNS => ['c1', 'c2'], LIMIT => 10, STARTROY 
hbase» scan 't1', (COLUMNS => 'c1', TIMERANGE => [1303668804, 1303668904])] 
hbase (main):030:0» help 'get' 
Get row or cell contents; pass table name, row, and optionally 
a dictionary of column(s), timestamp, timerange and versions. Examples: 
hbase» get 'nsl:tl1', 'r1' 
hbase» get 't1', 'r1' 
hbase» get 'ti', 'ri1', (TIMERANGE => [tsl, ts2]] 
hbase» get 't1', 'ri', (COLUMN => 'c1'} 
hbase» get 't1', 'ri', (COLUMN => ['c1', 'c2', 'c3']) 
hbase» get 'tl', 'ri', (COLUMN => 'c1', TIMESTAMP => tsl) 
hbase» get 't1', 'ri', (COLUMN => 'ci', TIMERANGE => [tsl, ts2], VERS 
hbase» get 'tl', 'ri', (COLUMN => 'c1', TIMESTAMP => tsl, VERSIONS => 


9) 删除 数据 。 


如 代码 清单 4-13 所 示 。 


代码 清单 4-13 ”delete 命 令 用 法 


hbase (main):031:0» help 'delete' 


Put a delete cell value at specified table/row/column and optionally 
timestamp coordinates.  Deletes must match the deleted cell's 
coordinates exactly. When scanning, a delete cell suppresses older 
versions. To delete a cell from ''tl' at row 'rl' under column 'c1' 
marked with the time 'tsl', do: 

hbase» delete 'nsl1:tl', 'r1', 'c1', tsl1 

hbase» delete 't1', 'r1', 'c1', ts] 
hbase (main):032:0» help 'deleteall' 


Delete all cells in a given row; pass a table name, row, and optionally 


a column and timestamp. Examples: 
hbase» deleteall 'ns1:t1', 'r1' 
hbase» deleteall 't1', 'r1' 
hbase» deleteall 't1', 'r1', 'c1' 
hbase» deleteall 't1', 'r1', 'c1', tsl 


从 上 面 的 描述 可 以 看 出 ， 其 实 HBase 中 的 shell 命 令 和 传统 数据 库 的 DDL 中 的 大 部 


44.2 ”动手 实践 : HBase Shell 操 作 


4.5 Java APIl&MapReduce 与 HBase 交 互 


4.5.1 


实验 步骤 
1) 查看 表 test， 是 否 存在 。 


4j 


在 HBase 中 删除 数据 使 用 命令 delete， 但 是 执行 delete 命 令 并 不 会 真正 删除 HBase 表 中 的 数据 


LA E MZ 
分 是 类 


似 的 ， 并 且 其 用 法 也 是 一 样 的 ， 所 以 对 于 之 前 了 解 或 熟 


2) 新 建 表 test， 设 置 2 个 column family: cf1、cf2， 设 置 4 个 regions， 对 应 分 割 点 为 250、500、750。 


3) 插入 数据 ， 具 体 代码 如 下 : 


Les 
Les 


put ' 
put ' 


end end end 


t',"#{i}#H{J}#{k}", "Ci 
E! BEGLHECIBROKIU, "ci 


for i in 'O'http://www.hzcourse.com/resource/readl 


4) 获取 rowKey 为 100 的 记录 。 


5) 获取 rowkey 为 100、column 为 cf: 20 的 记录 。 


思考 : 


1) 表 中 的 rowkey 设 计 是 否 合 理 ? 数据 是 否 均衡 ? 


2) get 和 scan 有 何 异同 ? 


Book?path-/openresources/teach ebook/uncompressed/16328/0E 
£1:4(j) E(k) -1", " £(j)HE(Kk]" 
£2:4(j E(k) -2", " £(jHE(K]" 


本 节 先 给 出 HBase 开 发 环境 的 搭建 ， 然 后 再 分 别 使 用 Java APl 来 操作 HBase， 使 用 MapReduce 来 操作 HBase。 


搭建 HBase 开 发 环境 


BPS/Text/..'9' do 


悉 SQL 的 读者 来 说 ， 这 部 分 内 容 应 该 比较 简单 。 


， 只 是 会 在 表 中 设置 一 个 删除 标志 位 ， 当 在 下 次 合并 的 时 候 才 执行 删除 操作 。 删 除 命令 用 法 


for j in 'O'http://www.hzcourse.com/resource/readi 


本 书 的 开发 环境 使 用 Eclipse 搭建 (如果 没有 特别 声明 ， 一 般 都 是 使 用 Eclipse) ， 其 他 工具 ， 如 Intellij IDEA， 这 里 不 再 分 析 。Eclipse 配 置 HBase 开 发 环境 ， 其 实 就 是 把 Hadoop 以 及 HBase 相 关 jar 包 加 
入 工程 的 classpath 路 径 中 。 本 节 介 绍 两 种 方式 ， 一 种 使 用 Maven 来 构建 工程 ， 这 样 可 以 自动 加 包 (但 是 ， 如 果 网 络 环境 较 差 ， 则 下 载 相关 jar 包 需要 时 间 ) ， 这 种 方式 一 般 适 合 企业 使 用 。 另 外 ， 也 可 以 直 
接 使 用 手动 方式 加 包 ， 这 种 方式 一 般 适 合 离线 教学 或 自主 学 习 等 。 


1. 使 用 Maven 构 建 HBase 工 程 


1) 打开 Eclipse， 设 置 Maven; 通过 Window->pPreferences->Myeclipse->Maven4Mye-clipse->lnstallations (Myeclipse) &kWindow-» Preferences-» Maven-»Installations (eclipse) 设置 


Bc 


maven 安 装 路 径 ; iBiWindow-»Preferences-» Myeclipse-» Maven4Myeclipse-» User Settings (Myeclipse) &kWindow-» Preferences-» Maven-» User Settings (eclipse) 设置 Maven 配 置 文件 路 


PA 
径 。 


2) 新 建 Maven project， 执 行 下 面 一 系列 操作 ; 


@File 一 new 一 other 一 Maven 一 Maven Project， 如 图 4-15 所 示 。 
Q@Next 一 Next， 如 图 4-16 所 示 。 

选择 参数 maven-archetype-quickstart 一 Next， 如 图 4-17 所 示 。 
@ 输 入 Group Id 和 和 artifact id 一 Finish， 如 图 4-18 所 示 。 


@ 建 好 的 工程 如 图 4-19 所 示 。 


8: New 


Select a wizard 


Create a Maven Project 


Wizards: 
type filter text 


E> JPA 
> Map/Reduce 
v & Maven 
w Check out Maven Projects from SCM 
MS Maven Module 


Mt Maven Project 


图 4-15 了 clipse 新 建 Maven 工 程 1 
Sj New Maven Project 
New Maven project 


Select project name and location 


[_] Create a simple project (skip archetype selection) 


IZ] Use default Workspace location 


Location: 


[_] Add project(s) to working set 


Workir g set 


Finish 


图 4-16  Eclipse3t £ Maven 1-422 


8; New Maven Project 


New Maven project 


Select an Archetype 


Catalog: All Catalogs v | Configure... 


Bn | |* 


Group Id Artifact Id Version 


Show the last version of Archetype only [_] Include snapshot archetypes 


» Advanced 


图 4-17 了 Eclipse 新 建 Maven 工 程 3 


i; New Maven Project 


New Maven project 


Specify Archetype parameters 


Properties available from archetype: 


Name Value | Add... 


图 4-18 Eclipse 新 建 Maven 工 程 4 


3) 修改 pom.xml 文 件 ， 添 加 Hadoop 及 HBase 相 关 依 赖 (只 修改 dependencies 和 pro-perties 部 分 即 可 ) 。pom.xml 文 件 内 容 如 代码 清单 4-14 所 示 。 


à JRE System Library [Java 


mà Maven Dependencies 


E> src 


^ (» main 


^ E> test 


EE src/main/Java 
hbase test.v1 
src/test/java 


hbase test.v1 


kœ target 


代码 清单 4-14 pom.xml 文 件 内 容 


m| pom.xml 


图 4-19 Eclipse 新 建 Maven 工 程 5 


— p 


E 


— c-— 


E 


«properties» 
«project.build.sourcel 


Encoding»UTF-8«/project.build.sourcel 


Encoding» 


«hadoop.version»2.6.0«/hadoop.version» 
«hbase.version»1.1.2«/hbase.version» 


«/properties» 


«dependencies» 
«dependency» 


«groupId»junit«/groupld» 


«artifactlId»junit«/artifactlId» 


«version»4.12«/version» 


«scope»test«/scope» 


«/dependency» 
«dependency» 


«groupId»org.apache.hbase«/groupId» 
«artifactId»hbase-server«/artifactlId» 
«version»$(hbase.version]«/version» 


«/dependency» 
«dependency» 


«groupId»org.apache.hbase«/groupId» 
«artifactId»hbase-client«/artifactlId» 
«version»$í(hbase.version]«/version» 


</dependency> 
<dependency> 


«grouplId»javax.servlet«/groupld» 


«artifactlId»javax 


.servlet-api«/artifactlId» 


«version»3.0.1«/version» 
«scope»providedc/scope» 


«/dependency» 
«!-- hadoop --» 
«dependency» 


«groupId»org.apache.hadoop«/groupId» 
«artifactId»hadoop-hdfs«/artifactlId» 


«version»$[(hadoop 
«exclusions» 
«exclusion» 


.Version)«/version» 


«groupId»javax.servlet«/groupld» 
«artifactlId»servlet-api«/artifactld» 

«/exclusion» 

«/exclusions» 

«/dependency» 

«dependency» 
«groupId»org.apache.hadoop«/groupId» 
«artifactlId»hadoop-auth«/artifactld» 
«version»$[(hadoop.version)«/version» 

«/dependency» 

«dependency» 
«groupId»org.apache.hadoop«/groupId» 
«artifactlId»hadoop-common«/artifactld» 
«version»$[(hadoop.version)«/version» 
«exclusions» 

«exclusion» 
«groupId»javax.servlet«/groupld» 
«artifactlId»servlet-api«/artifactld» 

«/exclusion» 

«/exclusions» 

«/dependency» 


«dependency» 
«groupId»org.apache.hadoop«/groupId» 
«artifactlId»hadoop-mapreduce-client-core«/artifactld» 
«version»$[(hadoop.version)«/version» 
«/dependency» 
«dependency» 
«groupId»org.apache.hadoop«/groupId» 
«artifactlId»hadoop-mapreduce-client-common«/artifactld» 
«version»$[(hadoop.version)«/version» 
«/dependency» 
«dependency» 
«groupId»org.apache.hadoop«/groupId» 
«artifactlId»hadoop-mapreduce-client-jobclient«/artifactld» 
«version»$[(hadoop.version)«/version» 
«/dependency» 
«dependency» 
«groupId»org.apache.hadoop«/groupId» 
«artifactliId»hadoop-yarn-api«/artifactld» 
«version»$[(hadoop.version)«/version» 
</dependency> 
<dependency> 
«groupId»jdk.tools«/groupld» 
«artifactId»jdk.tools«/artifactlId» 
«version»1.7«/version» 
«scope»system«c/scope» 
«systemPath»$ (JAVA HOME)/lib/tools.jar«/systemPath» 
</dependency> 
</dependencies> 
<build> 
<finalName>exploringhadoop</finalName> 
<plugins> 
<plugin> 
<groupId>org.apache.maven.plugins</groupId> 
<artifactId>maven-compiler-plugin</artifactId> 
<configuration> 
source>1.7</source> 
target»1.7«/target» 
«/configuration» 
«/plugin» 
«/plugins» 
«/build» 


人 


人 


4) 更 新 工程 ， 右 键 工 程 : Maven-»Update Project->OK (更 新 工程 主要 是 为 了 让 Eclipse 下 载 相 关 jar 包 ， 并 添加 到 工程 的 classpath 中 ) 。 


5) 更 新 后 的 工程 如 图 4-20 所 示 (在 Maven Dependencies 下 面 就 可 以 看 到 对 应 的 jar 包 ) 。 


6) 添加 log4j.properties (src/main/java) ， 该 文件 主要 是 设置 日 志 记录 格式 等 ， 其 内 容 如 代码 清单 4-15 所 示 。 


v Wu vi 


» src/main/Java 

» src/test/Java 

> BÀ JRE System Library [JavaSE-1.7] 
v EÀ Maven Dependencies 


» 


代码 清单 4-15 log4j.properties 配 置 文件 


sa junit-4.12jar - D. m2 Mocal repo\junit 
hamcrest-core-1.3.ar - DA.m2Mocal 1 
| hbase-server-1.1.2ar - DA. m2Mocal 
hbase-common-1.1.2.ar - D'.m2loc 
hbase-protocol-1.1.2Jar - D.m2Moc; 
hbase-procedure-1.1.2.Jar - DA.m2Xc 
hbase-common-1.1.2-tests.ar - DA.rr 
hbase-pretix-tree-1.1.2.,jar - DX. m2Xlc 
commons-httpclient-3.1.,ar - DA.m2^| 


T 
T 


commons-codec-1.9jar - DA mA\loca 
commons-collections-3.2.1Jar - DA.rr 
hbase-hadoop-compat-1.1.2.ar - D^, 
hbase-hadoop?2-compat-1.1.2.ar - D 
metrics-core-2.2.0Jar - DA.m2Mocal r 
quava-12.0.1.Jar - D*^.m2Mocal repo 


I 
T 


protobuf-java-2.5.0.4ar - D*.m2Mocal 


图 4-20 ”更 新 jat 包 后 的 HBase 工 程 


2. 手 动 加 包 构 建 HBase 工 程 
1) 打开 Eclipse， 新 建 MapReduce 工 程 (参考 第 2 章 中 建立 Hadoop Eclipse 插件 使 用 相关 章节 ) 。 


选择 File 一 New 一 Map/Reduce Project， 如 图 4-21 所 示 。 


New MapReduce Project Wizard 


MapReduce Project 


Create a MapReduce project. 


Project name: | hbase test v1 

[7] Use default location 

Location: | CAUsersMansyNworkspace tmp\hbase test v1 
Choose file system: default v 

Hadoop MapReduce Library Installation Path 


(€) Use default Hadoop 


图 4-21 了 Eclipse 新 建 MapReduce 工 程 


@ 输 入 工程 名 ， 单 击 Finish 按 钮 ， 查 看 建 好 的 工程 ， 如 图 4-22 所 示 。 


src 

JRE System Library [jdk1.7.0 79] 
zookeeper-3.4.6,Jar - CAUsersMans 
xz-1.0Jar - CAUsersMfansy software 
stax-api-1.0-2.jJar - C'\Us 
servlet-api-2.5Jar - CAUsersMans 
protobuf-java-2.5.0,Jar - C'AUsers 
netty-3.6.2.Final.Jar - CAUsers\fansy 


Lá 
i J 


log4j-1.2.17Jar - C'\Users\fansy\so 


leveldbjni-all-1.8Jar - CAUsers\fan 


图 4-22 Eclipse 建立 好 的 MapReduce 工 程 


2) 添加 Hbase jar 包 。 


QAL Build Path 一 Configure Build Path 一 Libraries 一 Add Library 一 User Libr-ary 一 Next 一 User Libraries 一 New; 输入 “hbase.1.1.2” 一 OK， 如 图 4-23 所 示 。 
Fa | T PE 
iSi Preferences (Filtered) 


type filter text User Libraries 


v Java User libraries can be added to a Java Build path and bundle a number of 


v Build Path external archives. System libraries will be added to the boot class path when 
User Libraries launched. 


Defined user libraries: 


Bh hbasel.1.2 | New... 


Edit... 


Add JARs... 


Add External JARs... 


Remove 


图 4-23 ”添加 HBase 相 关 jar 包 1 
@Add External JARs， 选 择 HBase 对 应 jar 包 (图 4-24 是 添加 好 jar 包 后 的 截图 ) 。 


3) 在 建 好 的 工程 中 ， 即 可 看 到 新 建 的 HBase1.1.2 的 jar 包 了 ， 如 图 4-25 所 示 。 


注 
y 
TE 添加 HBase 相 关 jar 包 时 ， 需 要 和 图 4-25 中 的 jat 包 一 一 对 应 ， 如 果 有 多 或 者 少 ， 那 么 工程 可 能 会 出 问题 。 


4) 添加 log4j.properties (src) ， 此 文件 是 日 志 格 式 等 相关 配置 ， 内 容 可 以 参考 代码 清单 4-15。 


t8 Preferences (Filtered) 


type filter text h User Libraries 


v Java 


| User libraries can be added to a Java Build path and bundle a number of 
Y Build Path external archives. System libraries will be added to the boot class path when 
User Libraries launched. 


Defined user libraries: 


^ B avro 
v Ej) hbase1.1.2 
» i hbase-client-1.1.2ar - CAUsersMansyAsoftw; 


hbase-common-1.1.2.jar - CAUsersMansyAsc 


hbase-hadoop2-compat-1.1.2,ar - CAUsers 
hbase-hadoop-compat-1.1.2Jar - CAUsersM 
hbase-protocol-1.1.2.jar - CAUsersMansyAso 
hbase-resource-bundle-1.1.2.jar - CAUsersWX 


hbase-server-1.1.2ar - CAUsersMansyAsoftv 


htrace-core-3.1.0-incubating,ar - CAUsersME 
metrics-core-2.2.0.ar - CAUsersMansyAsoftwareMar.gzWbaseMbase-1 
netty-all-4.0.23.Final.jar - CAUsersMansyAsoft 


YY Y Y Y Y Y vY vyv 4 


图 4-24 ”添加 HBase 相 关 jar 包 2 


v m, hbasel.1.2 
» la hbase-client-1.1.2,Jar - C UsersMansy soft 
> lg hbase-common-1.1.2,jar - CAUsers\fansy' 
hbase-hadoop2-compat-1.1.2,ar - CL 
hbase-hadoop-compat-1.1.2.,ar - C'User 


hbase-protocol-1.1.2ar - CAUsersMansy 


hbase-resource-bundle-1.1.2.,ar - C User 


hbase-server-1.1.2.,ar - CAUsersMansyso 
htrace-core-3.1.0-incubating,jar - C^ Users 
m etrics -core-2, 2.0. ar - CAU SE rs\fa " Sys "1 


ty-all-4.0.23.Finaljar - CAUsersVfansy sc 


图 4-25 HBase 相 关 jat 包 


4.5.2 ”使 用 Java API 操 作 HBase 表 


即 可 完成 创建 表 或 删除 表 的 操作 。 


- 


使 用 Java API 操 作 HBase 表 ， 主 要 包括 获取 HBase 连 接 、 对 HBase 进 
代码 进行 


1. 获 取 连 接 


行 新 增 或 删除 表 操 作 、 对 HBase 表 进行 


增删 改 查 操作 。 本 节 将 对 这 些 常 


如 代码 清单 4-16 所 示 ， 在 Java 中 ， 可 以 直接 获取 一 个 HBase 集 群 的 链接 ， 只 需要 提供 HMaster 服 务 的 IP 地 址 、 端 口号 、HBase 在 HDFS 上 的 根 目 录 地 址 、Zookeeper 和 集群 地 址 即 可 。 使 用 
ConnectionFactory 的 静态 create 方 法 即 可 创建 HBase 的 连接 。 


代码 清单 4-16 Java API 获 取 HBase 连 接 


Configuration conf = HBaseConfiguration.create(); 

conf.set("hbase.master", "master:16000");--jHiEHMaster 

conf.set ("hbase.rootdir", n oet 8020/hbase") ;-- 指 定 HBase 在 HDFS 上 存储 路 径 
conf.set("hbase.2ZooKeeper.quorum"，"slavel, slave2,slave3") ;-- 指 定 使 用 的 ZooKeepez 集 群 
conf.set("hbase.ZooKeeper.property.clientPort", "2181") EER] zoo ocpc IO ED 
Connection connection = ConnectionFactory.createConnection (conf) ;-- 获 取 连 接 


WE 上 面 的 具体 连接 ， 如 master: 8020 等 ， 都 是 本 书 使 用 的 具体 集群 配置 ， 读 者 需要 根据 自己 的 实际 集群 环境 进 


2. 新 建 /删除 表 


如 代码 清单 4-17 所 示 ，Java API 新 建 或 删除 HBase 表 ， 需 要 获取 Admin， 即 获取 HBase 管 理 客户 端 (注意 ， 
这 里 的 HTableDescriptor 即 是 对 表 的 描述 ， 主 要 指 表 名 。 同 时 需要 注意 


代码 清单 4-17 Java API 新 建 /删除 HBase 表 


public static void createTable (Connection connec 
Admin admin = connection.getAdmin(); 
TableName tableNam 


HTab] 


= TableName .val 


行 修改 。 


， 在 删除 表 的 时 候 需 


O 


tion) throws Exception { 


ueOf (TABI 


(TABLE); 


hTabl 
if (! 


eDescrip 
eDescrip 
admin.tablel 


-- 不 存在 ， 创 建 表 


admin.createTable (hTabl 
(TAI 


S 
) els 


-- 该 表 存在 ， 删 除 后 再 创建 
eAvai 


直接 其 


if 


) 


) 


ystem.out.pr 


intln 


tor hTableDescriptor = new HTableDescrip! 
tor.addFamily (new HCol 
Exists (Tabl 


E'R 被 


BLE 


e 1{ 


(!admin. is 


Tab] 


lable 


eName.valueOf( 


(tableName)) 


tor (tableName); 
[LY)); 


umnDescrip 
TABLE))) 


tor (FAMI 
{ 


leDescriptor); 


新 建 ! "U; 


{ 


-- 该 表 di sabl e, 


JR 


admin.del 


eteTab] 


(tableN 


System.out.println 


else ( 


n (TABLE 


-- 该 表 enable 状 态 ; 


admin. disableTable 


先 disable,， 


ame); 
+" 表 被 删除 ! CU); 
E 除 


(tableName) 


System.ou 


n (TAB] 


LC .prin 


e 


Vie 被 disable! "ms 


admin. deleteTable (tableNam 


System.ou 


TIS 
F 


BL 


t.prin 


n (TAI 


di MA "); 


admin.createTable (hTableDescriptor); 


System.out.println (TA 


3. 插 入 数据 


如 代码 清单 4-18 所 示 ，Java API 插 入 数据 到 HBase 表 中 ， 


BLE 


+" 表 被 新 建 ! ") ; 


Table 实 例 使 用 Connection 实 例 的 getTable 方 法 获得 。 注 意 ， 在 插入 数据 时 ， 也 可 以 指定 时 间 截 。 


代码 清单 4-18 Java API 插 入 HBase 表 数据 


public static void put(Connection connection) throws IOException { 

Table table = connection.getTable (TableName.valueOf (TABLE)); 

List«Put» list = new ArrayLlist«Put»(); 

Put put = new Put (Bytes .toBytes (ROWKEY1)); 

put.addColumn (Bytes.toBytes (FAMILY), Bytes.toBytes (COL1), Bytes.toBytes ("v11")); 
put.addColumn (Bytes.toBytes (FAMILY), Bytes.toBytes (COL2), Bytes.toBytes ("v12")); 
list.add (put); 

put = new Put (Bytes.toBytes (ROWKEY2)); 

put.addColumn (Bytes.toBytes (FAMILY), Bytes.toBytes (COL1), Bytes.toBytes ("v21")); 
put.addColumn (Bytes .toBytes (FAMILY), Bytes.toBytes (COL2), Bytes.toBytes ("v22")); 
list.add (put); 

table.put (list); 

System.out.println("data putted!"); 

table.close(); 

} 

4. 获 取 数 据 


如 代码 清单 4-19、 代 码 清单 4-20 所 示 ，Java API 获 取 HBase 表 数据 也 和 Shell 操 作 一 样 ， 有 两 种 方式 : get 方 法 和 scan 方 法 ， 其 实际 操作 和 Shell 里 面 一 样 。 在 获取 到 | 数据 后 


注意 。 这 里 ， 把 结果 都 放 入 Result 对 象 中 ， 然 后 遍历 Result 对 象 ， 获 取 其 各 个 列 篮 、 列 的 值 。 


代码 清单 4-19 Java API 通 


pub] 


System.out. 
Tabl 


e 


lic static void get (Connec 


println ("ge 


table = connection. 


Get 


new Get (ROWKE 


get 
Res 


ult result = 


ch 


tion connection) 
ttp: //www.hzcourse.com/resource/readl 
getTable (TableName.valueOf : 


前 过 get 方 法 获取 HBase 表 数据 


throws IOException { 


Book?path=/openresources/teach ebook/uncompressed/16328/0E 
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BPS/Text/..http://www.hzcourse.com/resource/read 
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Bytes ()); 


Sys 
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代码 清单 4-20 Java API 通 


publ 


tem.out.println (new S 


e0; 


Tabl 


e table = connec 


Scan scan - new Scan 
tScanner scann 
or«Result» list 


Resul 
Iterat 


( 


table.get 


) . 


(ge 


Bytes 


tring 


t); 
(result.ge 
Bytes (CO] 


. TO. 


ic static void scan(Connection connection) 
System.out.println ("scanhttp://www.hzcourse.com/resource/readi 
tion.getTable (TableName.valueOf 


tValue( 
L1)))); 


Bytes.toByt ILY), 


前 过 scan 方 法 获取 HBase 表 数据 


throws IOException { 


c 


Book?path-/openresources/teach ebook/uncompressed/16328/0E 


BPS/Text/..http://www.hzcourse.com/resource/read 


BI 


(TABLE) ) ; 


r 


r= 


table.getScanner (scan); 
scanner.iterator (); 


用 的 操作 直接 给 出 其 示例 代码 ， 供 读者 参考 ， 同 时 针对 部 分 


此 客户 端 由 HBase 连 接生 成 ) 。 获 取 后 ， 直 接 调用 Admin 实 例 的 createTable 或 deleteTable 
要 调用 Admin 实 例 的 distableTable 方 法 ， 然 后 才能 调用 deleteTable 方 法 。 


需要 构造 一 个 Put 对 象 或 List<Put> 对 象 ， 该 Put 对 象 里 面 就 包含 Rowkey 以 及 列 簇 中 列 的 具体 值 了 。 插 入 数据 ， 使 用 Table 实 例 的 put 方 法 即 


， 如 何 读 取 数据 ， 也 需要 读者 


Book?path= 


Book?patt 


Result result = null; 

while (list.hasNext()) { 

result - list.next(); 
ln( 


System.out .Println (new String(result.getRow())+":" 

new String (result.getValue (Bytes.toBytes (FAMILY), Bytes.toBytes (COL1)))); 
System.out.println (new String (result.getRow())z-":" 

new String (result.getValue (Bytes.toBytes (FAMILY), Bytes.toBytes (COL2)))); 


} 
table.close(); 


) 


4.5.3 动手 实践 : HBase Java API 使 用 


1) 打开 eclipse， 导 入 工程 4.5 001 HBase Java API, 
2) 修复 工程 的 编译 错误 (Hadoop 路 径 、HBase 路 径 、jdk 路 径 ) 。 


3 


xa 


浏览 工程 文件 MyConnection， 了 解 代 码 功 能 。 


4 


x 


完善 缺失 代码 (缺失 代码 有 TODO 提 示 ) 。 

5) 依次 注释 main 函 数 中 的 方法 调用 ， 查 看 输出 。 

6) 使 用 hbase shell 查 看 hbase 数 据 库 中 对 应 的 表 及 数据 。 
思考 : 

1) 如 果 不 设置 连接 ， 是 否 可 以 连接 HBase? 如 何 连 接 ? 


2) 如 果 建 表 时 需要 添加 多 个 Region， 代 码 如 何 实现 ? 
4.5.4 MapReduce 与 HBase 交 互 


使 用 MapReduce 来 与 HBase 交 互 ， 主 要 是 指使 用 MapReduce 代 码 来 把 数据 从 HDFS 导 入 HBase 或 把 数据 从 HBase 导 入 HDFS 或 把 数据 从 HBase 一 个 表 导入 HBase 另 一 个 表 中 。 下 面 就 这 3 种 方式 给 出 其 
示例 代码 ， 并 给 出 解释 。 


1.HDFS 导 入 HBase 
我 们 知道 MapReduce 程 序 一 般 都 会 包含 3 个 部 分 : Driver 驱 动 程序 、Mapper 程 序 、Reducer 程 序 。 在 MapReduce 和 HBase 的 交互 程序 中 ， 一 般 只 会 包含 两 个 部 分 : Driver 驱 动 程 序 、Mapper 程 序 。 


如 代码 清单 4-21、 代 码 清单 4-22 所 示 ，HDFS 导 入 HBase， 只 需要 在 Driver 中 调用 TableMapReduceUtil 的 静态 initTableReducerJob 方 法 ， 然 后 把 表 名 传 入 即 可 ， 同 时 设置 Reducer 的 个 数 为 0。 在 
Mapper 中 ， 需 要 继承 Mapper (和 传统 MapReduce 程 序 的 Mapper 一 样 ) ， 但 是 其 输出 的 键 值 对 格式 一 定 是 <ImmutableBytesWritable，Put> ， 里 面 的 逻辑 可 以 根据 自己 的 需要 去 构建 。 比 如 需要 添加 
处 理 字 符 串 代码 ， 把 字符 串 数据 分 割 成 各 个 字段 值 ， 然 后 构造 Put 对 象 等 操作 。 


代码 清单 4-21 HDFS 导 入 HBase Driver 程 序 


Configuration conf = getConf(); 

TableName tableName = TableName.valueOf (args [1]); 
Path inputDir = new Path (args[0]); 
String jobName = "Import to "+ tableName.getNameAsString(); 
Job job = Job.getlInstance (conf, jobName); 

job.setJarByClass (ImportMapper.class); 
FileInputFormat.setInputPaths (job, inputDir); 
job.setlInputFormatClass (TextlInputFormat.class); 
job.setMapperClass (ImportMapper.class); 
TableMapReduceUtil.initTableReducerJob (tableName.getNameAsString(), null,job); 
job.setNumReduceTasks (0) ; 


return job.waitForCompletion(true) ? 0 : 1; 


代码 清单 4-22 HDFS&AHBase Mapper 程 序 


public class ImportMapper extends Mapper«LongWritable, Text, ImmutableBytes-Writable, Put»í 
protected void setup(Mapper«LongWritable, Text, ImmutableBytesWritable, Put».Context context) 
throws IOException, InterruptedException { 
} 


2.HBase 导 入 HDFS 


如 代码 清单 4-23、 代 码 清单 4-24 所 示 ，HBase 导 入 HDFS， 只 需要 在 Driver 中 设置 TableMapReduceUtil 的 静态 方法 initTableMapperJob， 在 参数 里 面 需要 指定 表 名 、scan 规 则 (可 以 为 默认 Scan 实 
例 ) 、Mapper 类 、Mapper 的 输出 键 值 对 类 型 ， 同 时 也 需要 设置 Reducer 的 个 数 为 0。 在 Mapper 中 需要 指定 其 继承 类 为 TableMapper， 且 其 输入 键 值 对 格式 为 <ImmutableBytesWritable，Result>。 如 
果 在 Mapper 中 需要 加 入 一 些 其 他 业务 逻辑 ， 也 可 以 添加 。 


代码 清单 4-23 ”HBase 导 入 HDFS Driver 程 序 


Configuration conf = getConf(); 

Path outputDir = new Path(args[0]); 

Job job = Job.getInstance (conf, "Export from hbase table " + TABLE); 
job.setJarByClass (ExportFromHBase.class); 


Scan scan - new Scan(); 
-- 没 有 reducers， 直 接 写 入 输出 文件 


job.setNumReduceTasks (0) ; 
FileOutputFormat.setOutputPath (job, outputDir); 
TableMapReduceUtil.initTableMapperJob|( 
TABLE,  --input table 
scan, --Scan instance to control CF and attribute selection 
ExportMapper.class, --mapper class 
Text.class, --mapper output key 
Text.class, --mapper output value 
job); 


return job.waitForCompletion(true) ? 0 : 1; 


代码 清单 4-24 HBase&AHDFS Mapper 程 序 


public class ExportMapper extends TableMapper«Text, Text>{ 
public void map(ImmutableBytesWritable key, Result value, Context context) 
throws IOException, InterruptedException( 
context.write(key, value); 


) 


3.HBase&AHBase 


如 代码 清单 4-25、 代 码 清单 4-26 所 示 ，HBase 导 入 HDFS， 则 需要 在 Driver 中 设置 TableMapReduceUtil 的 静态 方法 initTableMapperJob， 以 及 调用 TableMapReduceUtil 的 静态 initTableReducerJob 
方法 ， 其 实 ， 可 以 简单 认为 它 是 前 面 两 个 的 综合 。Mapper 类 ， 需 要 设置 Mapper 的 输出 键 值 对 类 型 <ImmutableBytesWritable，Result>， 在 Mapper 中 需要 指定 其 继承 类 为 TableMapper。 可 以 看 
出 ，Mapper 也 是 前 面 两 个 的 综合 。 


代码 清单 4-25 ”HBase 导 入 HBase Driver 程 序 


Configuration conf = getConf(); 
String jobName -"From table "«FROMTABLE- " ,Import to "+ TOTABLE; 
Job job = Job.getlInstance (conf, jobName); 
job.setJarByClass (HBaseToHBase.class); 
TableMapReduceUtil.initTableMapperJob|( 


FROMTABLE, --input table 
new Scan(),// Scan instance to control CF and attribute selection 
H2HMapper.class, --mapper class 
ImmutableBytesWritable.class, --mapper output key 
Put.class, --mapper output value 
job); 
TableMapReduceUtil. B co ce 
TOTABLE, null, 


i 


-- 没 有 reducers， BG AB 
job.setNumReduceTasks (0) ; 
return job.waitForCompletion(true) ? 0 : 1; 


代码 清单 4-26 ”HBase 导 入 HBase Driverf Fe 


public class H2HMapper extends TableMapper«ImmutableBytesWritable, Put» ( 
GOverride 
protected void map(ImmutableBytesWritable key, Result value, 
Mapper«ImmutableBytesWritable, Result, 
ImmutableBytesWritable, Put».Context context) 
throws IOException, InterruptedException { 
context.write(key, resultToPut (key, value)); 


"— 


4.5.5 ”动手 实践 HBase 表 导入 导出 


实验 步 又 : 


1) 打开 HBase shell 终 端 ， 参 考 “ 肢 本 /test1.sql”。 


N 
— 


新 建 表 test1，column family 为 cf。 


UV 
— 


打开 Hadoop 客 户 端 ， 上 传 data/data.txt 数 据 到 HDFS。 


= 


打开 Eclipse， 导 入 工程 4.5 002 HBase Simple MR， 修 复工 程 的 编译 错误 (Ha-doop 路 径 、HBase 路 径 、jdk 路 径 ) 。 


Un 
— 


浏览 工程 demo.hdfs2hbase 包 中 代码 ， 了 解 代码 功能 并 完善 其 中 的 内 容 (TODOS) 。 

6) 在 HBase shell 中 查看 对 应 表 数 据 。 

实验 步骤 : 

1) 打开 HBase shell 终 端 ， 查 看 表 test1 数 据 。 

2) 打开 Eclipse， 导 入 工程 4.5 002 HBase Simple MR， 修复 工程 的 编译 错误 (Ha-doop 路 径 、HBase 路 径 、jdk 路 径 ) 。 
3) 浏览 工程 demo.hbase2hdfs 包 中 代码 ， 了 解 代码 功能 并 完善 其 中 的 内 容 (TODOR) 。 

4) 直接 运行 Driver 主 类 ， 查 看 相应 日 志 。 

5) 在 HDFs 中 查看 对 应 数据 。 

实验 步骤 : 


1) 打开 HBase shell 终 端 ， 参 考 “ 脚 本 /test1.sql” 


N 
— 


新 建 表 test2，column family 为 cf。 


Wu 
— 


打开 Eclipse， 导 入 工程 4.5 002 HBase Simple MR， 修 复工 程 的 编译 错误 (Ha-doop 路 径 、HBase 路 径 、jdk 路 径 ) 。 


> 


浏览 工程 demo.hbase2hbase 包 中 代码 ， 了 解 代 码 功能 并 完善 其 中 的 内 容 (TODO 提 示 ) 。 
5) 在 HBase shell 中 查看 对 应 表 数 据 (test2) 。 

me. 

1) 是 否 可 以 直接 在 Eclipse 中 运行 代码 ?如 何 实现 ? 


2) 对 比 直 接 Java APl 导 入 数据 和 MR 方 式 导 入 数据 的 优 劣 


4.6 ”基于 HBase 的 冠 字号 查询 系统 


4.6.1 案例 背景 


识别 人 民 币 伪钞 有 哪些 方式 ”一 般 为 看 、 摸 、 听 、 测 ， 具 体 如 下 : 
: 用 肉眼 看 钞票 的 水 印 是 否 清晰 ， 有 无 层次 和 立体 的 效果 ; 看 安全 线 ; 看 整 张 票 面 图 案 是 否 单一 或 者 偏 色 。 看 纸币 的 整体 印刷 效果 ， 人 民 币 真 币 使 用 特制 的 机 器 和 油墨 印刷 ， 整 体 效 果 精美 细致 ; 假币 
的 整体 效果 粗糙 ， 工 艺 水 平 低 。 


- 我 国 现行 流通 的 人 民 币 1 元 以 上 纸币 都 用 四 版 印刷 技术 。 和 触摸 票面 上 凹 印 部 位 的 线条 是 否 有 明显 的 凹凸 感 。 假 币 无 凹凸 感 或 者 凹凸 感 不 强烈 。 

. 人 民 币 纸币 所 使 用 的 纸张 是 经 过 特殊 处 理 、 添 加 有 化 学 成 分 的 纸张 ， 提 括 耐 折 ， 用 手 拌 动 或 者 用 手指 弹 会 发 出 清脆 的 声音 。 如 果 是 假币 ， 拌 动 或 者 弹 击 的 声音 发 问 。 
. 真人 民 币 纸币 的 尺寸 十 分 严格 ， 精 确 到 以 毫米 计 。 另 外 可 以 使 用 验 钞 机 检测 是 否 有 荧光 图 纹 ; 用 磁性 仪 检测 磁性 印记 。 

但 是 ， 使 用 人 的 感官 来 确定 人 民 币 是 否 是 伪钞 主观 性 还 是 比较 大 的 ， 有 没有 比较 好 的 方法 来 验证 是 否 是 伪钞 呢 ? 


本 案例 就 是 使 用 客观 的 方法 来 验证 伪钞 。 本 案例 采用 的 方案 是 基于 冠 字号 的 ， 每 张 人 民 币 的 冠 字号 是 唯一 的 ， 如 果 有 一 个 大 表 可 以 把 所 有 的 人 民 币 以 及 人 民 币 对 应 的 操作 (在 什么 时 间 、 什 么 地 点 存 入 
或 获取 ) 记录 下 来 ， 这 样 在 进行 存 取 时 就 可 以 根据 冠 字号 先 查询 一 下 ， 看 当前 冠 字号 对 应 的 纸币 在 大 表 中 的 保存 的 操作 ， 就 可 以 确定 当前 冠 字号 对 应 的 纸币 是 否 是 伪钞 了 (这 里 确定 在 大 表 中 的 所 有 冠 字号 
对 应 的 钞票 都 是 真 钞 ) 。 

表 4-5 对 应 的 是 存 取 场 景 。 


表 4-5 ARAR 


场景 3 有 (此 时 没有 无 状态 ) 真 钞 


目前 ， 基 于 传统 数据 库存 储 数据 一 般 在 干 万 级 别 ( 受 限于 查询 等 性 能 ) ， 但 是 如 果 要 存储 所 有 钞票 的 信息 以 及 其 被 存储 或 获取 的 记录 信息 ， 那 么 传统 数据 库 肯定 是 不 能 胜任 的 。 所 以 本 系统 是 基于 
HBase 的 。HBase 的 优势 在 前 面 已 经 介绍 过 ， 这 里 不 再 详 述 。 


4.6.2 ”功能 指标 


企业 应 用 一 般 都 会 给 出 系统 的 功能 指标 。 针 对 本 系统 ， 其 功能 指标 描述 如 下 : 
- 存储 亿 级 用 户 信息 ; 

: 存储 百 亿 级 别 钞票 信息 ; 

. 支持 前 端 业 务 每 秒 5000+ 实 时 查询 请 求 ; 

数据 存储 和 计算 能 够 可 扩展 ; 

| 提供 统一 接口 ， 支 持 前 端 相 关 查询 业务 。 

但 是 ， 受 限于 本 书 使 用 集群 配置 ， 这 里 把 相关 功能 进行 简化 ， 如 下 所 示 : 

“ 存储 万 级 用 户 信 息 ; 

“ 存储 百 万 级 别 钞票 信息 ; 

- 支持 前 端 业务 每 秒 500+ 实 时 查询 请 求 。 


上 面 3 点 只 是 针对 系统 性 能 指标 降级 ， 其 他 指标 ， 比 如 可 扩展 等 ， 这 个 属于 HBase 的 特性 ， 原 生 支 持 (后 面 系统 实现 ， 可 以 使 用 上 面 的 指标 进行 评测 ) 。 
4.6.3 系统 设计 


本 节 针 对 冠 字号 查询 系统 给 出 系统 级 别 设 计 ， 主 要 包括 系统 架构 设计 、HBase 表 设计 、Rowkey 设 计 、 数 据 传输 设计 (数据 从 HDFS 到 HBase 通 用 代码 ) 。 下 面 分 别 叙 述 。 


1. 系 统 架构 


如 图 4-26 所 示 ， 冠 字号 查询 系统 包含 5 层 。 


存 / 取 钞 业务 


XTARA PHE O 


Hbase 和 钞票 存储 库 、 


图 4-26 ”HBase 冠 字号 查询 系统 架构 


. 数据 层 : 包括 基础 数据 MySQL、 文 档 、Web 数 据 等 ; 

. 数据 处 理 层 : 主要 是 数据 的 加 载 ， 包 括 MR 加 载 模式 、Java API 加 载 模式 、Sqoop 加 载 模式 等 ; 

“ 数据 存储 层 : 主要 是 HBase 存 储 ， 包 括 钞票 的 所 有 信息 以 及 用 户 信息 等 ; 

. 数据 服务 层 : 主要 是 对 外 提供 查询 、 存 储 等 接口 服务 ; 

. 数据 应 用 层 : 存 取 钞 系统 ， 在 存 钞 时 涉及 伪钞 识别 ; 其 他 应 用 系统 。 

2. 表 设计 

HBase 表 设计 (广义 表 设 计 ) 涉及 表 名 、 表 结构 、 表 列 复 、Rowkey、 版 本 设计 等 内 容 ， 下 面 就 针对 相对 比较 重要 的 几 个 方面 进行 介绍 。 
为 了 简化 操作 ， 这 里 设计 两 张 表 : 钞票 表 、 用 户 表 。 


钞票 表 首先 包含 冠 字号 (唯一 标识 符 ) ， 在 进行 存 入 和 获取 的 过 程 中 ， 都 会 对 应 一 个 用 户 、 时 间 、 地 点 。 存 入 和 获取 操作 同样 需要 存储 (这 个 存储 可 以 使 用 1 代表 存 入 ，0 代 表 获 取 ) 。 用 户 信息 需要 包 
含 用 户 姓名 、 性 别 、 出 生日 期 、 身 份 证 号 码 (唯一 标识 符 ) 、 住 址 等 。 


钞票 表 (identify rmb records) 、 用 户 表 (identify rmb users) 结构 分 别 如 表 4-6、 表 4-7 所 示 。 


表 4-6 identify rmb records 2544 


rowkey Li REE CBS )|AAAA0000 


who, when, where 做 了 哪些 操作 


如 果 用 户 是 存储 行为 ， 那 么 在 行为 


用 户 ID 4113281991XXXX9919 
存 取 钞 银行 SPDBCNSH 银行 编号 


表 4-7 identify_rmb_users 表 结构 


主键 列 入 字段 值 举例 & ž 
Rowkey | ”一 | 用 户主 键 ( 身 份 证 号 ) 


Rowkey 设 计 : 在 表 identify rmb_records、identify_rmb_users 表 中 的 rowkey 分 别 是 钞票 的 冠 字 号 、 用 户 身份 证 号 ， 这 两 个 都 是 唯一 的 ， 符 合 Rowkey 的 唯一 性 ; 其 次 ， 冠 字号 、 身 份 证 号 都 是 有 一 定 
规律 的 ， 在 此 规律 的 基础 上 可 以 设置 SPLITS 参 数 ， 从 而 均衡 分 布 所 有 数据 。 


列 艇 设计 : HBase 的 列 簇 一 般 情况 下 不 应 超过 2 个 ， 应 该 尽量 使 用 较 少 的 列 艇 ， 因 为 单个 列 簇 flush 的 时 人 息 ， 它 临近 的 列 徐 也 会 触发 flush， 影 响 系统 性 能 。 在 本 系统 中 ， 由 于 所 属 信息 不 多 ， 所 以 全 部 设 
计 成 一 个 列 篮 。 


版 本 设计 : 在 钞票 存 入 或 获取 的 时 候 ， 如 果 某 冠 字 号 发 生 疑 似 假 钞 ， 需 要 追溯 该 冠 字号 的 所 有 记录 。 这 时 ， 使 用 HBase 的 版 本 概念 就 可 以 很 方便 地 实现 这 个 功能 ， 在 表 定 义 的 时 候 ， 设 置 版 本 信息 : 
VERSIONS=> 1000。 


3. 数 据 加 载 

本 系统 中 ， 数 据 加 载 分 为 已 存在 数据 加 载 和 实时 数据 加 载 。 已 存在 数据 是 指 历史 数据 ， 或 者 是 系统 第 一 次 存储 钞票 的 数据 ;实时 数据 是 指 用 户 在 进行 存 钞 、 取 钞 时 候 的 实时 操作 数据 。 
(1) 已 存 数据 加 载 

系统 在 投入 使 用 的 时 候 ， 已 经 存在 历史 数据 ， 需 要 把 历史 数据 批量 导入 系统 中 ; 在 人 民 币 首次 发 行 时 ， 也 需要 批量 导入 系统 中 。 这 里 的 导入 直接 使 用 MR 导 入 (注意 ， 此 假设 还 是 理论 模型 ) 。 
数据 加 载 流程 如 下 : 

1) 数据 加 载 到 HDFS， 为 MapReduce 批 量 处 理 准备 数据 ; 

2) 主 类 配置 运行 HDFS to HBase 的 参数 ， 包 括 : HDFS 输 入 数据 路 径 、 输 入 数据 字段 分 隔 符 、 表 名 、 列 艇 名 、rowkey 所 在 列 、timestamp 所 在 列 、timestamp 日 期 格式 ; 

3) Mapper 是 整个 流程 的 核心 ， 主 要 负责 进行 数据 解析 ， 以 及 从 HDFS 导 入 HBase 表 中 的 工作 ， 其 各 个 部 分 功能 如 下 : 

"setup () : 获取 输入 数据 字段 分 隔 符 ， 获 取 列 徐 、 列 名 ， 获 取 Rowkey 列 标 ， 获 取 ts 格 式 及 列 标 〈 如 果 没 有 的 话 ， 就 按照 插入 数据 的 时 间 设 置 ) ; 

"map () : 解析 、 过 滤 并 提取 数据 (需要 的 字段 数据 ) ， 生 成 Put 对 象 ， 写 入 HBase。 

上 述 数 据 加 载 流 程 和 一 般 的 HDFS 数 据 加 载 到 HBase 表 的 流程 基本 一 样 ， 不 过 ， 这 里 考虑 到 通用 性 ， 所 以 可 以 设置 一 些 额外 的 参数 ， 然 后 把 程序 编写 得 更 加 通用 。 下 面 分 析 主 要 代码 。 


代码 清单 4-27 HDFS 导 入 HBase 通 用 代码 主 类 Driver 


if (args.length != 5) { 
System.err.println (“Usage:\n ImportToHBase «input» <tableName> <splitter>” 
+ "pk, ts, oDlligl, col2:ql, col2:q2> <date fromat>”); 


return -1; 

if (args[3] == null || args[3].length() < 1) { 
System.err.println("column family can't be null!"); 
return -1; 

} 

Configuration conf = getConf(); 

conf.set(SPLITTER, args[2]); 


conf.set (COLSFAMILY, args [3] ); 


conf.set(DATEFORMAT, args[4]); 
TableName tableName = Tablename.valueOf (args [1]); 


Path inputDir = new Path (args[0]); 

String jobName = "Import to ”+ tableName.getNameAsString(); 
Job job = Job.getlInstance (conf, jobName); 

job.setJarByClass (ImportMapper.class); 
FileInputFormat.setInputPaths (job, inputDir); 
job.setlInputFormatClass (TextInputFormat.class); 


job.setMapperClass (ImportMapper.class); 
TableMapReduceUtil.initTableReducerJob (tableName.getNameAsString(), null, job); 
job.setNumReduceTasks (0) ; 


return job.waitForCompletion(true) ? 0 : 1; 


如 代码 清单 4-27 所 示 ， 主 类 代码 首先 获取 Configuration 相 关 配 置 ， 然 后 根据 传 入 的 参数 ， 设 置 Configuration ; 接着 ， 就 是 传统 的 MR 代 码 ， 设 置 输入 格式 、 设 置 Mapper 等 ; 其 中 ， 标 记 部 分 即 为 把 
MR 的 输出 初始 化 为 HBase 表 的 代码 ; 最 后 ， 提 交 任 务 即 可 。 


Mapper: 需要 继承 Mapper， 同 时 输出 的 KV 键 值 对 类 型 需要 需要 设置 为 <Immu-tableBytesWritable，Put> ， 其 类 定义 如 代码 清单 4-28 所 示 。 


代码 清单 4-28 ImportMapper 类 定义 代码 


public class ImportMapper extends Mapper«LongWritable, Text, ImmutableBytes-Writable, Put»í 
} 


代码 清单 4-29 ImportMapper 类 setup () 函数 代码 


protected void setup(Mapper«LongWritable, Text, ImmutableBytesWritable, put».Context context) 

throws IOException, InterruptedException( 

splitter context.getConfiguration().get(ImportToHBase.SPLITTER, ","); 

String colsStr - context.getConfiguration().get(ImportToHBase.COLSFAMILY, null); 

sf = context.getConfiguration().get(ImportToHBase.DATEFORMAT, null)--null 

? new SimpleDateFormat ("yyyy-MM-dd HH:mm”) 
:new SimpleDateFormat (context.getConfiguration().get (ImportToHBase.DATEFORMAT)); 

String[] cols = colsStr.split(COMMA, -1); 

colsFamily = new ArrayList«»(); 

for (int i20; i«cols.length; i++) ( 

if ("rk".equals(cols[i])) ( 

rklIndex = i; 
colsFamily.add (null); 
continue; 


— 


if ("ts".equals(cols[i])) { 
tsIndex = i; 
colsFamily.add (null); 

hasTs = true; -- 原 始 数据 包括 上 ts 


continue; 


} 

colsFamily.add(getCol (cols[i])); 
} 
} 


代码 清单 4-29 是 读 取 主 类 Driver 的 Configuration 里 面 的 配置 ， 然 后 根据 这 里 配置 参数 值 ， 初 始 化 相关 参数 ， 比 如 列 艇 名 、 列 名 等 (当然 ,这些 代码 也 可 以 直接 硬 编码 在 代码 中 ， 但 是 如 果 是 硬 编码 的 


话 ， 其 通用 性 就 比较 差 ) 。 


~ 


ImportMapper 的 map () 函数 就 是 解析 、 过 滤 、 提 取 相 关 字 段 值 ， 生 成 Put 对 象 ， 并 且 写 入 HBase 中 即 可 ， 其 代码 如 代码 清单 4-30 所 示 。 


代码 清单 4-30 ImportMapper 类 map () 函数 代码 


protected void map(LongWritable key, Text value, 
Mapper«LongWritable, Text, ImmutableBytesWritable, put».Context context) 
throws IOException, InterruptedException { 


String[] words = value.toString().split(splitter, -1); 

if (words.length != colsFamily.size()) ( 
System.out.println("line:" + value.toString() + " does not compatible"); 
return; 


) 
rowkey.set (getRowKey (words [rkIndex])); 

put = getValue (words, colsFamily, rowkey.copyBytes()); 
context.write(rowkey, put); 


} 


在 代码 清单 4-30 中 ， 首 先 根据 字段 分 隔 符 解析 数据 ;然后 ， 抽 取出 所 需 的 字段 ， 生 成 Put 对 象 ; 最 后 ， 通 过 调用 context.write 直 接 写 入 HBase 表 中 。 同 时 ， 这 里 需要 注意 ， 因 为 put 中 已 经 包含 rowkey 
的 信息 ， 所 以 最 后 一 行 代码 写 为 context.write (null, put) 也 是 可 以 的 。 这 里 的 getValue 方 法 就 是 根据 各 个 列 值 以 及 列 艇 名 、 列 名 来 构建 Put 对 象 ， 其 内 容 如 代码 清单 4-31 所 示 。 


代码 清单 4-31 ImportMapper 类 map () 函数 子 函 数 getValue () 函数 代码 


private Put getValue(String[] words, ArrayList«byte[][]» colsFamily, byte[] bs) { 
Put put = new Put (bs); 
for (int i20; i«colsFamily.size(); i++) ( 
f (colsFamily.get(i)--null) (--rk 或 ts 
continue; -=- 下 一 列 


jai 


k 


£ (words[i]--null words[i].length()--0) { 
continue; -- 不 添加 ， 直 接 取 下 一 个 value 


} 

-- 日 期 异常 的 记录 同样 添加 

if (hasTs) { 
put.addColumn (colsFamily.get(i)[0], colsFamily.get (i) [1 
getLongFromDate (words[tsIndex]), Bytes.toBytes (words [i 

Jelse ( 
put.addColumn (colsFamily.get(i)[0], colsFamily.get (i) [1], 

Bytes.toBytes (words[i])); 


— a 
— 
RM 


return put; 


(2) 实时 数据 加 载 

直接 使 用 Java APl 来 操作 HBase 数 据 库 ， 完 成 实时 HBase 数 据 库 更 新 (可 参考 Java API 操作 HBase 表 ) 。 

4. 动 手 实践 : 表 设 计 及 数据 导入 

实验 步 又: 

1) 根据 表 设 计 相 关 章节 ， 编 写 钞票 表 (identify rmb records) 、 用 户 表 (identify rmb users) 建 表 语 句 ， 参 考 表 4-8、 表 4-9。 


表 4-8 identify rmb records k KH 6] 


create 'identify rmb records',(NAME-»'op www',VERSIONS-»1000), 
SPLITS z»-['AAAM9999','AAAZ9999', 'AABM9999'] 


表 4-9 identify rmb users 4£ A i8 6] 


create 'identify rmb users',(NAME-»'info')], 
SPLITS -»2['4113281990XXXX0000','4113281991XXXX0000',''4113281992XXXX0000' ] 


2) 打开 HBase shell 终 端 ， 根 据 上 面 的 建 表 语句 进行 建 表 。 

3) 数据 参考 : source\hbase\data\stumer in out details.txt、source\hbase\data\uid details.txt, 

4) 上 传 数据 stumer in out details.txt, uid _details.txt 到 hadoop 客 户 端 ， 再 把 数据 上 传 到 HDFS 上 ， 如 图 4-27 所 示 。 
5) 参考 表 设 计 模块 ， 打 开 hbase shell， 新 建 对 应 表 ， 建 好 表 后 ， 使 用 list 命 令 查看 ， 可 以 看 到 如 表 4-10 所 示 记 录 。 


表 4-10 ”钞票 表 和 用 户 表 记录 


hbase (main):034:0» list 
TABLE 

Gr 

identify rmb records 


identify rmb users 


Contents of directory /user/root 


Goto : fuser —— [go 


Go to parent directory 


Mam meelsize — Replication Block Size|Noditication Time Permission Omer 
LsparkStasins — — — (dir | | | [2016-01-24 05:34 |rexr-xr-x| 
averageiob 00 — — à (dir | | | [2016-02-23 10:05 |rexr-xr-x | 
data validate — — — [dir | — | | [2016-04-05 16:01 [rexr-xr-x | 
keyvalue.data  |[file|1.95 Kb |] li28 Ww — 2016-02-23 09:58 [wrr | 
kmeas in —  jfile|I29B  |1 (128m [2016-03-20 11:50 [rwr | 
lein filellze8s (1 (128m (2016-03-20 19:02 [rwr | 


[7035 (a (128m (2016-03-28 16:27 rw 
| | [2016-04-05 16:03 |rwxr-rr-x | 
[715 (1 (28m |2016-04-30 16:31 [rwr 


昌 昌 日 


2016-05-01 09:08 
lworkftlor ldir| | | 2016-03-29 16:01 |rwrr-xr-x |root |supergroup| 


图 4-27 数据 在 HDFS 上 显示 


6) 参考 数据 加 载 模块 编写 数据 加 载 代码 。 


Q@ 添 加 相关 jar 包 (包括 HBase、Hadoop) ， 如 图 4-28 所 示 。 


£j avro-1.7.4.Jar £Z; commons-cli-1.2.4ar Zjcommons-codec-1.4.Jar 


commons-collections-3.2.1.Jar |] commons-configuration-1.6,Jar || commons-lang-2.6,ar 


£| commons-logging-1.1.3.Jar |] guava-11.0.2.jar £, hadoop-auth-2.6.0.jar 


| &|hadoop-common-2.6.0Jjar |&|hadoop-hdfs-2.6.0.jar |&] hadoop-mapreduce-client-app-2... 


|L&|hadoop-mapreduce-client-comm... |&|hadoop-mapreduce-client-core-.. |£&|hadoop-mapreduce-client-jobcli... 


|, S|hadoop-yarn-api-2.6.0.Jar |&]hadoop-yarn-client-2.6.0,jar || hadoop-yarn-common-2.6.0.jar 
|L&|hbase-client-1.1.2jar |&]hbase-common-1.1.2.jar || hbase-hadoop2-compat-1.1.2.jar 


|L&|hbase-hadoop-compat-1.1.2 jar |&|hbase-protocol-1.1.2.jar |&| hbase-resource-bundle-1.1.2 jar 


|&|hbase-server-1.1.2,jar | &|htrace-core-3.0.4.jar |&5| htrace-core-3.1.0-incubating.jar 


| &|jackson-core-asl-1.9.13 jar |&]jackson-mapper-asl-1.9.13.jar |&|log4j-1.2.17 jar 


|&|metrics-core-2.2.0jar | &|netty-all-4.0.23.Final;jar [é| protobuf-java-2.5.0jar 


图 4-28 ”Web 工程 添加 相关 jar 包 
@ 获 取 Hadoop、HBase 连 接 ， 建 立 Utils 类 ， 并 添加 getConnection 方 法 ， 如 代码 清单 4-32 所 示 。 


代码 清单 4-32 ”Utils 工 具 类 代码 


pirvate static Configuration configuration; 


public static Configuration getConfiguration() { 
if (configuration == null) { 

configuration = new Configuration(); 
-- 配 置 使 用 跨 平 台 提交 
configuration.setBoolean ("mapreduce.app-submission.cross-platform", true); 
-- 指 定 namenode 
configuration.set("fs.defaultFS", "hdfs://master:8020"); 
-- 指 定 使 用 yazrn 框 架 


configuration.set ("mapreduce.framework.name", "yarn"); 
--jHAÉresourcemanager 
configuration.set("yarn.resourcemanager.address", "master:8032"); 


configuration.set ("yarn.resourcmanager.scheduler.address","master:8030"); 
--j&5E jobhistoryserver 
figuration.set ("mapreduce.jobhistory.address", "master:10020"); 
configuration.set ("hbase.master", "master:16000"); 
figuration.set("hbase.rootdir", "hdfs://master:8020/hbase"); 
configuration.set ("hbase.zookeeper.quorum", "slavel,slave2,slave3"); 
configuration.set ("hbase.zookeeper.property.clientPort", "2181^"); 
-- 运 行 MR 任 务 ， 需 要 包含 对 应 的 Mapper、Reducez 的 jar 包 的 设置 
configuration.set (“mapreduce.job.jar”, “C:\\jars\\import2hbase.jar”); 


} 
return configuration; 


} 


| 型 | sl 全 -apPI-1.7.5Jar [| slf4j-log4j12-1.7.5.jar [| zookeeper-3.4.6.jar 


代码 清单 4-32 中 属性 mapreduce.job.jar 设 置 是 运行 MR 任务 ， 需 要 包含 对 应 的 Mapper、Reducer 的 jar 包 的 设置 (当然 ， 如 果 直 接 在 终端 中 使 用 hadoop jar 的 方式 
@ 在 Utils 类 中 添加 相关 常量 ， 如 代码 清单 4-33 所 示 。 


代码 清单 4-33 ”Utils 工 具 类 常量 代码 


public static final char COMMA = ','; 

public static final String IDENTIFY RMB RECORDS - "identify rmb records"; 
public static final String IDENTIFY RMB USERS = "identify rmb users"; 
public static final byte[] OP WWW = "op www” .getBytes (); | 
public static final byte[] INFO = "info".getBytes(); 

public static final byte[] COL EXIST = "exist".getBytes(); 

public static final byte[] COL UID = "uid".getBytes(); 

public static final byte[] COL BANK - "bank".getBytes(); 

public static final byte[] COL NAME = "name" .getBytes(); 

public static final byte[] COL GENDER = "gender".getBytes(); 

public static final byte[] COL ADDRESS = "address".getBytes(); 


因为 HBase 中 列 复 、 列 名 都 需要 使 用 byte[] 类 型 ， 所 以 提前 转换 ; 
@@ 参 考 数据 加 载 模块 的 Driver 以 及 Mapper 类 编写 对 应 的 类 ， 如 代码 清单 4-34 所 示 。 


代码 清单 4-34” 主 类 参数 设置 


\ 一 ZX 一 


12517, 


则 不 需要 设置 此 选项 ) 。 


H: 


f (args.length != 5) { 

System.err.println (“Usage:\n ImportToHBase «input» «tableName» <splitter>” 
+ " «rk, ts, coll:gql, col2:ql,col2:q2> «date format»"); 

return -1; 


f (args[3]--null || args[3].length() < 1) { 
System.err.println("column family can't be null!"); 
return -1; 


} 


H- =~ 


这 里 对 参数 进行 说 明 。 

input: 输入 数据 路 径 。 

: tableName: HBase 表 名 。 

: splitter: 输入 数据 字段 分 隔 符 。 


rk: towkey 所 在 列 (移动 丰 即 可 设置 fowkey 在 不 同 列 ， 但 是 不 字符 串 不 变 ) ; tsi 时 间 惟 所 在 列 ， 类 似 人 未; col: q: f]: 列 名 ， 和 输入 数据 对 应 。 


: date format: 日 期 格式 (如 果 有 ts， 那 么 此 参数 有 有 用， 如果 没 有 ts， 则 设置 为 null 即 可 ) o 
导入 HBase 表 主 类 ， 分 别 如 代码 清单 4-35、 代 码 清单 4-36 所 示 。 


代码 清单 4-35 ”导入 identify rmb_records 表 主 类 参数 设置 


public class ImportToIdentifyRMBRecords { 
public static void main(String[] args) throws Exception { 
args = new String[] { 
"/user/root/stumer in out details.txt", 
"identify rmb records", 
, , 
rk, op www:exist, ts, op www:bank, op www:uid", 
"yyyy-MM-ad HH:mm” 


Nw 


ToolRunner.run(Utils.getConfiguration(), new ImportToHBase(), agrs); 


代码 清单 4-36 ”导入 identify rmb_users 表 主 类 参数 设置 


public class ImportToIdentifyRMBUsers { 

public static void main(String[] args) throws Exception ( 
args = new String[] { 

"/user/root/uid details.txt", 
identify rmb users", 


rk,info:name, ts, info:gender, info:address, info:phone, info:bank", 
"yyyy-MM-ad HH:mm” 


} 

ToolRunner.run(Utils.getConfiguration(), new ImportToHBase(), agrs); 
} 

} 


@@ 在 src 目 录 下 新 建 log4j.properties 文 件 ， 内 容 如 代码 4-15 所 示 。 
分 别 运 行 e 中 的 主 类 ， 即 可 完成 数据 导入 (注意 修改 mapreduce.job.jar 参 数 ) 。 


分 别 运行 类 ImportToldentifyRMBRecords、ImportToldentifyRMBUsers， 在 MapReduce 任 务 监控 界面 查看 对 应 任务 执行 情况 ， 分 别 如 图 4-29、 图 4-30 所 示 . 

User: tansy 

Name: Import to identify rmb recordz 
Application Type: MAPREDUCE 
Application Tags 

State: FINISHED 
FinalStatus SUCCEEDED 
Started: 12-May-2016 235: 


Elapsed: Zmins, 44sec 
Tracking URL 
Diagnostics 


图 4-29 identify rmb records k 3- MapReduce4£ 4-35 41 Tí 7L 


Import to identify rmb users 
Application Type: MAPREDUCE 
Application Tags: 
State: FINISHED 


FinalStatus: SUCCEEDED 
Started: 12-May-2015 23:36:06 
Elapsed: lmins, Zzsec 
History 


图 4-30 identify_tmb_usets 表 导入 MapbReduce 任 务 运 行情 况 
7) 数据 加 载 完 成 后 ， 在 hbase shell 中 查看 对 应 数据 。 


表 identify rmb records， 其 数据 如 图 4-31 所 示 。 


hbase (main) :037:0> scan 'identify rmb records',[LIMIT-»2] 
ROW COLUMN-tCELL 
0 row(s) in 0.1190 seconds 


hbase(main):038:0» scan 'identify rmb records', {LIMIT=>2} 

ROW COLUMN-tCELL 

AAAA0000 column-op www:bank, timestamp-1414939140000, value-CITIHK 

AAAA0000 column-op www:exist, timestamp-1414939140000, value-0 

AAAAO0000 column-op www:uid, timestamp-1414939140000, value-4113281991XXXX9919 
AAAAO0001 column-op www:bank, timestamp-1071268980000, value-SPDBCNSH 

AAAA0001 column-op www:exist, timestamp-1071268980000, value=0 

AAAAO0001 column-op www:uid, timestamp-1071268980000, value-4113281990XXXX3865 
2 row(s) in 0.0970 seconds 


图 4-31 identify rmb records K k4% 
zxidentify rmb_users， 其 数据 如 图 4-32 所 示 。 
8) 在 HBase Shell 中 查看 钞票 表 、 用 户 表 中 的 数据 ; 同时 ， 在 浏览 器 监控 界面 查看 相应 的 信息 ， 并 给 出 解释 。 


思考 : 


hbase (main) :035:0> scan 'identify rmb users', {LIMIT=>2} 
ROW COLUMN-tCELL 
O row(s) in 0.2480 seconds 


hbase (main) :036:0> scan 'identify rmb users',[LIMIT-22] 

ROW COLUMN+CELL 
4113281989XXXX0000 column-info:address, timestamp-1463067415704, value-JXX-E72-1319151758 
4113281989XXXX0000 column-info:bank, timestamp-1463067415704, value-SPDBCNSH 
4113281989XXXX0000 column-info:birthday, timestamp-1463067415704, value-1981-10-20 09:12 
4113281989XXXX0000 column-info:gender, timestamp-1463067415704, value-femail 
4113281989XXXX0000 column-info:name, timestamp-1463067415704, value-JACO 
4113281989XXXX0000 column-info:phone, timestamp-1463067415704, value-135131XX517 
4113281989XXXX0001 column-info:address, timestamp-1463067415704, value-EXX-094-1319151759 
4113281989XXXX0001 column-info:bank, timestamp-1463067415704, value-SCBLCNSX 
4113281989XXXX0001 column-info:birthday, timestamp-1463067415704, value-1984-10-16 11:24 
4113281989XXXX0001 column-info:gender, timestamp-1463067415704, value-mail 
4113281989XXXX0001 column-info:name, timestamp-1463067415704, value-XJSJ 
4113281989XXXX0001 column-info:phone, timestamp-1463067415704, value-135131XX517 

2 row(s) in 0.1470 seconds 


图 4-32 identify rmb users Z4 


1) 为 什么 设计 identify rmb_users 表 时 ， 不 直接 使 用 timestamp 存 储 birthday? 


2) 表 identify rmb_records 的 列 簇 为 什么 设置 为 1000? 


4.6.4 动手 实践 : 构建 基于 HBase 的 冠 字号 查询 系统 
1. 建 立 Web 项 目 


1) 打开 Eclipse， 选 择 File 一 new 一 Project 一 Dynamic Web Project， 输 入 工程 名 ， 配 置 并 选择 tomcat， 如 图 4-33 所 示 。 


M New Dynamic Web Project [] X 


Dynamic Web Project 
Create a standalone Dynamic Web project or add it to a new or existing Enterprise Application. ' 4) 


Project name: | 6.5 003 HBase Stumer identify 


Project location 
[7] Use default location 


Location: CNUsers\fansy\work\ 培 训 \ 综 合 \ 云 计算 课程 讲义 \project\6.5 003 HBase Stumer | Browse. — 


Target runtime 


Apache Tomcat v7.0 ~ | New Runtime... 


Dynamic web module version 


Configuration 
Minimal Configuration — ^U "- . / " - 


nimal Configuration : 


The most conservative starting point. Only the required facets are installed. Additional facets can later 
be installed to add new functionality to the project. 


图 4-33 ”创建 Web 工 程 


2) 单 击 Next 按 钮 ， 保 持 默认 选项 即 可 ， 如 图 4-34 所 示 。 


e; New Dynamic Web Project 


Java 


Configure project for building a Java application. 


Source folders on build path: 


|| Add Folder... 


Edit... 
Remove 


Default output folder: 


buildXclasses 


| < Back | Next > Cancel j 


图 4-34 ”新建 Web 工 程 并 配置 目录 结构 


3) 单 击 Next 按 钮 ， 勾 选 “Generate web.xmlhttp://www.hzcourse.com/resource/readBook?pathz /openresources/teach ebook/uncompressed/16328/OEBPS/Text/...” 选 项 ， 如 图 4-35 所 


8 New Dynamic Web Project 


Web Module 


Configure web module settings. 


Context root: 6.5 003 HBase Stumer identify 


Tm mm 


图 4-35  3pXEWeb I. 42 JF 4] 3i j* "E web.xml i£ Jj 


4) 单 击 Finish 按 钮 ， 即 可 看 到 建立 的 工程 ， 如 图 4-36 所 示 。 


v 2 6.5 003 HBase Stumer identify 
25 JAX-WS Web Services 
Ba Deployment Descriptor: 6.5 003 HBase Stumer i 


v Bh Java Resources 
E src 
w zm Libraries 
mà Apache Tomcat v7.0 [Apache Tomcat v7.0 
mà EAR Libraries 
Bà JRE System Library [jdk1.7.0 79] 
mà Web App Libraries 
m JavaScript Resources 
d 
v & WebContent 
t META-INF 
wv & WEB-INF 
& lib 


E> bui 


X] web.xml 


图 4-36” 建 好 的 Web 工 程 目录 结构 
5) 在 WebContent 目 录 下 新 建 index.jsp， 在 body 标 签 内 加 入 “Hello World! ”。 


6) 启动 Tomcat， 浏 览 器 访问 : http://localhost: 8080/6.5 003 HBase Stumer identify， 可 以 看 到 如 图 4-37 所 示 界 面 ， 即 可 表示 Web 工 程 建立 成 功 。 


£ C | Ò localhost:8080/6.5 003 HBase Stumer identify/ 


Hello Vorld! 


图 4-37 Web 工 程 主 界面 
2. 完 善 Web 项 目 业务 功能 
注意 : 以 下 操作 ， 需 要 先 完成 4.6.3 节 内 容 。 
(1) 系统 首页 
完善 首页 : 添加 相关 链接 ; 修改 index.jsp 中 相关 编码 为 “GBK”， 同 时 修改 主要 内 容 如 代码 清单 4-37 所 示 。 


代码 清单 4-37 index.jsp 代 码 


«body» 

«div style-"padding-top: 30px"> 
«hl align="center"> 基 于 HBase 冠 字号 查询 系统 </nh1> 
«div style-"padding-left: 20px"> 


<p > 
基于 HBase 冠 字号 查询 系统 .…. 


</p> 
«a href-"retrieve.jsp'"»HUX«/a» «br» «br» 
«a href-"check.jsp"»fiif]«/a» <br><br> 
«a _ href="put.Jjsp"> 存 款 </a> <br><br> 
«a href="read.jsp"> 查 询 数 据 </a> 
</div> 
</div> 
</body> 


重新 部 署 Tomcat 项 目 ， 可 以 看 到 如 图 4-38 所 示 的 首页 。 


€ > C |O 127.0.0.1:3080/6.5 003 HBase Stumer identify/ 


基于 HBase 冠 字号 查询 系统 


字号 查询 系统 。。。 


图 4-38 ”修改 index.jsp 后 的 系统 首页 
(2) 取款 页 面 
添加 retrieve.jsp 页 面 ， 其 主要 功能 是 输入 取款 金额 ， 进 行 取款 ; 新建 retrieve.jsp 页 面 ， 修 改 相关 编码 为 “GBK”， 添 加 输入 金额 及 取款 功能 ， 其 主要 代码 如 代码 清单 4-38 所 示 。 


代码 清单 4-38 retrieve.jsp 代 码 


<body> 
«div style-"padding-top: 50px; text-align: center"> 
«div» 
<h2> 冠 字号 查询 系统 # 取 款 </h2> 
</div> 
<form action="Retrieve" method="get"> 
<table border="0" align="center" style="padding: 20px"> 
<tr style="text-align: left"> 
<td> 取 款 金额 : </td> 
«td»«select name-"num" id-"num id" » 
«option value-"1"»100«/option» 
«option value-"2"2200«/option» 
«option value-"3"»300«/option» 
«option value-"5"»500«/option» 
«option value-"7"»700«/option» 
«option value-"10"»1000«/option» 
«/select»«/td» 
<td><input type="submit" value=" 取 款 " ></td> 
</table> 
</form> 


«script type="text/javascript" src-"util.js" > </script> 
</body> 


部 署 tomcat， 取 款 界 面 如 图 4-39 所 示 。 


图 4-39 ”取款 页 面 


(3) 查询 冠 字 号 页 面 


添加 check.jsp 页 面 ， 其 主要 功能 是 根据 输入 或 生成 的 冠 字号 ， 查 询 HBase 表 中 是 否 有 对 应 记录 ; 新 建 check.jsp 页 面 ， 修 改 相关 编码 为 “GBK”， 添 加 冠 字号 输入 框 ， 添 加 自动 生成 冠 字号 按钮 ， 添 加 查 
询 功 能 ， 其 主要 代码 如 代码 清单 4-39 所 示 。 


代码 清单 4-39 ”check.jsp 代 码 


«body» 
«div style-"padding-top: 50px; text-align: center"» 
«div» 
<h2> 冠 字号 查询 系统 # 查 询 </n2> 
«/div» 


«form action-"Check" method-"get"» 
«table border-"0" align="center" style="padding: 20px"> 
«tr » 
<td> 冠 字号 : </td> 
td»«input type="text" name-"stumber" id-"stumber id"»«/td» 
<td><select name-"num" id-"num id"» i 
«option value-"1"»1«/option» 
«option value-"2"»2«/option» 
«option value-"3"»3«/option» 
«option value-"5"»5«/option» 
«option values" 7"»7«/option» 
«option value-"10"»10«/option» 
«/select»«/td» 


^ 


«/tr» 
«tr style-"text-align: left "> 

<td><input type="button" value=" 随 机 生成 " onclick-"random()"»«/td» 
<td><input type="submit" value=" 查 询 " ></td> 


</tr> 
</table> 
</form> 
</div> 
«script type-"text/javascript" src-"util.js" > «/script» 
</body> 


部 署 tomcat， 冠 字号 查询 界面 如 图 4-40 所 示 。 


(4) 存款 页 面 


添加 putjsp 页 面 ， 其 主要 功能 为 存储 输入 或 生成 的 冠 字号 ; 新 增 putjsp 页 面 ， 修 改 相关 编码 为 “GBK”， 添 加 冠 字号 输入 框 、 添 加 自动 生成 冠 字 号 按钮 、 添 加 存储 功能 ， 主 要 代码 如 代码 清单 4-40 所 


人 小。 


代码 清单 4-40 ”put.jsp 代 码 


«body» 
«div style-"padding-top: 50px; text-align: center"» 
«div» 
<h2> 冠 字号 查询 系统 # 存 款 </h2> 
</div> 


<form action="Put" method="get"> 
<table border="0" align="center" style="padding: 20px"> 

<tr > 
<td> 冠 字号 : </td> 
<td><input type="text" name-"stumber" id-"stumber id"»«/td» 
<td><select name-"num" id-"num id"» E 

«option value="1">1</option> 

<option value="2">2</option> 

<option value="3">3</option> 

<option value="5">5</option> 

<option value="7">7</option> 

<option value="10">10</option> 

</select></td> 


</tr> 
<tr style="text-align: left "» 
<td><input type="button" value=" 随 机 生成 " onclick-"random()"»«/td» 
<td><input type="submit" value=" 存 储 " ></td> 
«/tr» 

</table> 

</form> 
</div> 
<script type="text/javascript" src-"util.js"» 
</script> 
</body> 


部 署 tomcat 后 ， 存 款 页 面 如 图 4-41 所 示 。 


图 4-41 存款 页 面 


(5) 读 取 数 据 页 面 


添加 read.jsp 页 面 ， 其 主要 功能 为 查询 输入 或 生成 的 冠 字 号 在 表 中 的 记录 ; 新 增 read.jsp 页 面 ， 修 改 相 关 编 码 为 “GBK”， 添 加 冠 字号 输入 框 、 版 本 数 下 拉 框 ， 添 加 自动 生成 冠 字号 按钮 ， 添 加 查询 功 
能 ， 主 要 代码 如 代码 清单 4-41 所 示 。 


代码 清单 4-41 ”read.jsp 代 码 


<body> 
«div style-"padding-top: 50px; text-align: center"> 

«div» 

<h2> 冠 字号 查询 系统 # 但 询 数 据 </h2> 

«/div» 
form action-"Read" method-"get"» 
«table border-"0" align="center" style="padding: 20px"> 

«tr » 
<td> 冠 字号 : </td> 
<td><input size="50" type="text" name-"stumber" id-"stumber id"»«/td» 


人 


«tr style-"text-align: left "> 
«ta EH: </td> 
<td><select name-"num" id-"num id"» 

«option value-"1" selected-"selected"»1«/option» 

«option value-"2"»22«/option» 

«option Value="3" »3«/option» 

«option value-"5"»5«/option» 

«option value="7">7</option> 

«option value-"10" »10«/option» 

«option value-"20"»220«/option» 


</select> 
<input type="button" value=" 随 机 生成 " onclick="random()"> 
«/td» 
«/tr» 
«tr style-"text-align: left "> 
<tq> 版 本 数 : </td> 
«td» 
«select name-"version" id-"version id"» 


«option value-"1"»1«/option» 

«option value-"2"»22«/option» 

<option value-"3" selected-"selected"»3«/option» 
«option value-"5"»5«/option» 

«option values" 7"»7«/option» 

«option value-"10" »10«/option» 

«option value-"20"»220«/option» 


«/select» 
«input type="submit" value=" 查 询 " > 
</td> 
</tr> 
</table> 
</form> 
</div> 
«script type-"text/javascript" src-"util.js" > </script> 
</body> 


部 署 tomcat 后 ， 查 询 数据 页 面 如 图 4-42 所 示 。 


nift fü 


AAAQA4029, AAAT4226,AABS5238, AABC6848, AAAG6893 


5 v | 随机 生成 | 
3 | | zig 


图 4-42 ”查询 数据 页 面 
前 面 介绍 的 5 种 功能 实现 是 系统 的 前 端 部 分 实现 ， 接 下 来 我 们 来 看 后 台 是 如 何 实现 的 。 


(6) 取款 实现 


取款 功能 实现 ， 新 建 Servlet， 类 名 为 Retrieve; 重启 tomcat， 在 取款 界面 单 击 “ 取 款 ” 按 钮 ， 出 现 如 图 4-43 所 示 页 面 。 


€ C ||3localhost:8080/6.5 00 e Stumer identify/Retrieve?num- 1 


Served at: 


看 到 图 4-43 说 明 Servlet 建 立成 功 。 
在 doGet 方 法 中 添加 相关 代码 实现 ， 如 代码 清单 4-42 所 示 。 


代码 清单 4-42 ”取款 doGet 方 法 代码 


protected void doGet(HttpServletRequest request, HttpServletResponse response) { 
List«String» list = hBaseService.retrieve (request.getParameter ("num")); 
response.setHeader ("content-type", "text/html;charset-UTF-8"); 
response.getWriter ().append ("Served at: ").append(request.getContextPath|()) 

.append (“<br>”) .append (" 取 球 冠 字号 为 : <br>”) 

.append (list.toString()); 

} 


设置 response 编 码 格式 ， 同 时 调用 service 层 的 取款 函数 ， 如 代码 清单 4-43 所 示 。 


代码 清单 4-43 service 层 取款 函数 主要 代码 


大 类 


* 取 钱 ， 随 机 输出 冠 字号 ， 并 更 新 冠 字 号 对 应 的 exist 字 段 值 
* 只 有 在 exist 为 true 时 ， 才 进行 上 面 的 操作 
* Qparam num 
* ('throws IOException 
* 
A 
public List«String» retrieve (String numStr) throws IOException( 
Connection connection = ConnectionFactory.createConnection (Utils.getConfiguration()); 


Table table = connection.getTable (TableName.valueOf (Utils.IDENTIFY RMB RECORDS)); 
List« String» list = new ArrayList«»(); 

int num -Integer.parseInt (numStr); 

try { 


Scan scan - new Scan(); 

scan.setStartRow (Utils.getRandomRecordsRowKey ().getBytes ()); 

-- 设 置 只 查询 exist 为 1 的 数据 (不 使 用 SingleColumnValueFilter， 为 什么 ?) 

Filter filter = new SingleColumnValueExcludeFilter (Utils.OP WWW, 

Utils.COL EXIST , CompareOp.EQUAL, Bytes.toBytes("1")); 
scan.setFilter(filter); 


ResultScanner resultScanner - table. getScanner (scan) ; 
-- 取 出 的 记录 数 是 num 的 3 倍 〈 效 率 高 ) ， 因 为 数据 可 能 被 其 他 值 更 新 
Result[] results = resultScanner.next (num*3); 
Put put = null; 
for (int i-0;i«results.length;i-*)í( 
put = generatePutFromResult (results[i].getRow()); 
if(table.checkAndPut (results [i].getRow(),Utils.OP WWW, 


Utils.COL EXIST, Bytes.toBytes("1"), put)){ 


list.add(new String (results[i].getRow())); 
} 
if (list.size()>=num) { -- 如 果 已 经 找到 所 有 数据 ， 则 返回 
break; 
} 
} 
byte[] row; 


while (list.size()«num)| -- 没 有 找到 所 有 数据 ， 则 接着 直接 碍 找 
row = resultScanner.next ().getRow(); 
put = generatePutFromResult (row); 
if (table.checkAndPut (row,Utils.OP WWW, 
Utils.COL EXIST, Bytes.toBytes("1"), Put) ){ 
list.add(new String (row)); 


} 
} 
)catch (Exception e)í 
e.printStackTrace(); 
} 
return list; 


} 


取款 流程 如 下 : 
1) 根据 给 定 的 取款 冠 字号 个 数 num ， 随 机 查找 冠 字号 (rowkey) 对 应 的 0op_ www: exist 字 段 值 为 1 的 num*3 条 记录 ; 
2) 使 用 HBase.checkAndPut 进 行 更 新 ， 把 op www: exist 字 段 值 更 新 为 0， 并 返回 更 新 后 的 rowkey， 即 冠 字号 ; 
3) 如 果 在 num*3 条 记录 更 新 后 ， 被 更 新 的 冠 字号 不 足 num 条 ， 则 再 次 随机 查找 冠 字号 对 应 的 op_www: exist 字 段 值 为 1 的 记录 ， 并 更 新 ， 返 回 更 新 后 的 冠 字号 ， 直 到 返回 的 冠 字号 个 数 为 num。 
思考 : 
1) 为 什么 取款 流程 中 1) 中 查找 的 记录 为 num*3? 为 什么 不 使 用 SingleColumnValue-Filter? 


2) 直接 使 用 HBase.put 可 以 吗 ? 为 什么 ? 部 署 tomcat 后 ， 取 款 结果 查询 结果 及 数据 如 图 4-44、 图 4-45 所 示 。 


E C | B 127.0.0.1:808 


Served at: /6.5 003 HBase Stumer identify 
D EAE 
[AAAW50O6, AAANS ;097 ] 


图 4-44 ”取款 结果 查询 页 面 


€ Œ D 127.0.0.1:8080/6.5 003 HBase Stumer identify/Read?stumber- AAAW5096962C - AAAW5097 &num- 1 &version- 10 


Served at: /6.5 003 HBase Stumer identify 

数据 为 ; 

AAAV5096 colum=op www:bank, time-2000/01/01 00:00:00 000, value-BECHCNBJ 

AaW5096 column-op www:exist, time-2016/05/14 01:29:42 719, value-0 

WEE column-op www:exist, time-2000/01/01 00:00:00 000, value-l 

BAAWSO9F column-op www:bank, time-2005/12/13 22:37:00 000, value-CITIHEÉ 

AAAWSO007 column-op www:bank, time-2003/08/24 02:44:00 000, value-CBXMCNBA 

AAAWS097 column-op www:bank, time-2000/01/01 00:00:00 000, value-BKCHCNBJ] 

AAAVY5097 column-op www:exist, time-2016/05/14 01:29:42 747, value-0 

AAAW5097 column-op www:exist, time-2005/12/13 22:37:00 000, value=1 

ÀAAW50907 column-op www:exist, time-2003/08/24 02:44:00 000, value-0 

AAAWS007 column-op www:exist, time-2000/01/01 00:00:00 000, value-l | 

AAAWS0O97 column-op www:uid, time-2005/12/13 22:37:00 000, value-74113281990XXXX0124 
AAAWS5097 -op www:uid, time-2003/08/24 02:44:00 000, value-24113281990XXXX8136 


图 4-45 “取款 结果 查询 数据 


新 建 冠 字号 查询 Servlet (参考 Retrieve) ， 类 名 为 Check， 其 doGet 方 法 实现 如 代码 清单 4-44 所 示 。 


代码 清单 4-44 ”查询 doGet 方 法 代码 


protected void doGet(HttpServletRequest request, HttpServletResponse response) { 
String stumbers = request.getParameter ("stumber"); 
Map«String, String» map = hBaseService.check (stumbers); 
response.setHeader ("content-type", "text/html;charset-UTF-8"); 
response.getWriter ().append("Served at: ").append(request.getContextPath|()) 
. append (“<br>”) 
.append (\ 查 到 冠 字号 为 : «br»").append (map.get (“exist”) ) .append (“<br>”) 
„append (` 表 中 不 存在 的 冠 字 号 : <br>”) .append (map .get ("notExist")); 
} 


service 层 的 查询 函数 主要 代码 如 代码 清单 4-45 所 示 。 
代码 清单 4-45 service 层 查 询 函 数 主要 代码 


/** 
* 查询 
* Qparam stumbers 
* Qreturn 
* Qthrows IOException 
* 
/ 
public Map<String, String» check(String stumbers) throws IOException { 
String[] stumbersArr = StringUtils.split(stumbers, Utils.COMMA); 
Connection connection = ConnectionFactory.createConnection (Utils.getConfiguration()); 
Table table = connection.getTable (TableName.valueOf (Utils.IDENTIFY RMB RECORDS)); 
Map«String, String» map = new HashMap<> (); 
Get get = null; 
try ( 
List«Get» gets = new ArrayLlist«»(); 
for (String stumber : stumbersArr) { 
get = new Get(stumber.trim().getBytes()); 
gets.add (get); 


} 
Result[] results = table.get (gets); 
tring exist; 
tringBuffer existStr = new StringBuf 
tringBuffer notExistStr = new StringBu 
for (inti = 0; i < results.length; i++) ( 

exist = new String(results[i].getValue(Utils.OP WWW, Utils.COL EXIST)); 


"RD 


if ("1".equals (exist)) { 

existStr.append (stumbersArr[i]) .append (Utils.COMMA); 
}else if ("O".equals(exist)) { 

notExistStr.append (stumbersArr[i]).append (Utils.COMMA); 
) else ( 


System.out.println(new Date() + ": 冠 字号 : " + stumbersArr[i] + "fH exist 字 段 值 异常 ! ") ; 
} 


} 


map.put("exist", existStr.substring(0, existStr.length()-1)); 
map.put("notExist", notExistStr.substring(0, notExistStr.length()-1)); 
) catch (Exception e) { 

map.put ("notExist", notExistStr.substring(0, notExistStr.length()-1)); 
) catch (Exception e) { 

e.printStackTrace(); 


} 


return map; 


service 层 根据 前 台 传 入 的 冠 字号 进行 查询 ， 根 据 查 询 结果 的 op www: existzeEZBS(& 23 sIIBIBUG. 125873: 如 果 op_www: exist 字 段 值 为 1， 则 说 明 当 前 冠 字号 是 可 取款 状态 ; 否则 ， 当 前 冠 字 号 不 


查询 结果 页 面 如 图 4-46 所 示 。 


uj 


冠 字 


Œ | O 127.0.0.1:8080/6.5 003 HBase Stumer identify/Check?stumber-AAAZ1715962CAABV3700&num-2 


Served at: /6.5 003 HBase Stumer identify 


(8) 存款 实现 
新 建 冠 字号 查询 Servlet (参考 Retrieve) ， 类 名 为 Put， 其 doGet 函 数 实现 如 代码 清单 4-46 所 示 。 


代码 清单 4-46 ”存款 doGet 方 法 代码 


protected void doGet(HttpServletRequest request, HttpServletResponse response) { 
String stumbers = request.getParameter ("stumber"); 
Map«String, String» data = hBaseService.save (stumbers); 
response.setHeader ("content-type", "text/html;charset-UTF-8"); 
response.getWriter ().append("Served at: ").append(request.getContextPath()) 
.append (“<br>”) 
.append (` 已 存款 的 冠 字号 : <br>”) .append (data.get ("saved") ) . append (“<br>”) 
.append ("疑似 伪钞 冠 字 号 : <br>”) .append (data.get ("notSaved") ) ; 
} 


service 层 的 存款 函数 主要 代码 如 代码 清单 4-47 所 示 。 


代码 清单 4-47 service 层 存款 函数 主要 代码 


public Map<String, String> save(String stumbers) throws IOException { 

String[] stumbersArr = StringUtils.split(stumbers, Utils.COMMA); 

Connection connection = ConnectionFactory.createConnection (Utils.getConfiguration()); 
Table table = connection.getTable (TableName.valueOf (Utils.IDENTIFY RMB RECORDS)); 
Map« String,String» map = new HashMap<> (); 


StringBuffer saved = new StringBuffer(); 
StringBuffer notSaved = new StringBuffer(); 
try ( 

Put put = null; 

for (int i-0;i«stumbersArr.length;i--*)í( 


put = generatePutFromRow (stumbersArr[i].trim().getBytes(),"1"); 
if(table.checkAndPut (stumbersArr[i].trim().getBytes(),Utils.OP WWW, 
) { 


— 


Utils.COL EXIST, Bytes.toBytes("0"), put 


saved.append ( (stumbersArr[i].trim())).append(","); 
}else{-- 数 据 库 中 已 存在 冠 字号 ， 且 op _www:exist 为 0， 所 以 播 入 会 有 问题 〈 伪 钞 ) 
notSaved.append ( (stumbersArr[i].trim())).append(","); 


} 


if (saved.length () >0){ 

map.put ("saved", saved.substring (0, saved.length()-1) ); 
}else{ 
map.put("saved", "nodata"); 


} 
if (notSaved.length ()>0) { 

map.put ("notSaved",notSaved.substring(0, notSaved.length()-1) ); 
Jelse( 
map.put("notSaved", "nodata"); 


} 

)catch (Exception el) { 
e.printStackTrace(); 
) 

return map; 


) 


service 层 根据 前 台 传 入 的 冠 字 号 进行 存储 ， 使 用 HBase.checkAndPut 进 行 插入 。 人 存款 逻辑 为 : 如 果 op_www : exist 字 段 值 为 0， 则 说 明 当 前 冠 字号 是 可 存款 状态 ， 并 且 进 行 存款 ; 否则 ， 当 前 冠 字 号 


可 存款 ， 并 返回 疑似 伪钞 冠 字 号 。 
示例 : 


存款 前 查询 7 如 图 4-47 所 示 。 


€ Œ | Ò 127.0.0.1:8080/6.5 003 HBase Stumer identify/Read?stumber-AAAF4277962CAABH2140& num- 1 &version-3 


Served at: /6.5 003 HBase Stumer identify 

数据 为 ， 

AAAFA277 column-op www:bank, time-2002/07/16 06:34:00 000, value-CBXMCNBA 

AAAF4277 column-op www:bank, time-2000/01/01 00:00:00 000, value-BKCHCNBJ 

BAAF 4277 column-op www:exist, time-2002/07/16 06:34:00 000, value-0 

AAAF4277 column-op www:exist, time-2000/01/01 00:00:00 000, value-1l| 

AAAF4277 column-op www:uid, time-2002/07/16 06:34:00 000, value-4113281989XXXX1364 
AABH2140 column-op www:bank, time-2000/01/01 00:00:00 000, value-BKCHCNBJ 

AABH2140 column-op www:exist, time-2000/01/01 00:00:00 000, value-I 


图 4-47 存款 前 查询 结果 数据 
疑似 伪钞 查询 结果 ， 如 图 4-48 所 示 。 
存款 后 查询 ， 如 图 4-49 所 示 。 
(9) 读 取 数 据 实 现 


新 建 读 取 数 据 Servlet (参考 Retrieve) ， 类 名 为 Read， 其 doGet 方 法 实现 如 代码 清单 4-48 所 示 。 


C | D 127.0.0.1:8080/6.5 003 HBase Stumer ide ntify/Put ?stumber=AAAF4277%2CAABH2140&num= 


疑似 伪钞 冠 字号 
AABH2140 


图 4-48 ”疑似 伪钞 查询 结果 页 面 


€ C DD 127.0.0.1:8080/6.5 003 HBase Stumer identify/Read?stumber-AAAF4277962CAABH2140& num- 1 &version-3 


Served at: /6.5 003 HBase Stumer identify 


21879 : 


column-op www:bank, time-2002/07/16 06: 
column-op www:bank, time-2000/01/01 00:0 


34:00 000, value-CBXMCNBA 

0:00 000, value-BKCHCNBJ 
column-op www:exist, time-2016/05/14 03:01:53 049, value- 
column-op www:exist, time-2002/07/16 06:34:00 000, value-0 
column-op www:exist, time-2000/01/01 00:00:00 000, value-1 

column-op www:uid, time-2002/07/16 06:34:00 000, value-4113281989XXXX1364 
column-op www:bank, time-2000/01/01 00:00:00 000, value-BKCHCNBJ 
column-op www:exist, time-2000/01/01 00:00:00 000, value=1 


图 4-49 ”存款 后 查询 结果 数据 


代码 清单 4-48 ” 读 取 数据 doGet 方 法 代码 


protected void doGet(HttpServletRequest request, HttpServletResponse response) { 
int versions = Integer.parseInt (request.getParameter ("version")); 
List«HBaseData» data = hBaseService.read(stumbers, versions); 
StringBuffer buffer = new StringBuffer(); 
for (HBaseData d: data) { 

buffer.append (d.toString().append("«br»")); 


) 
response.setHeader ("content-type", "text/html;charset-UTF-8"); 
response.getWriter ().append("Served at: ").append(request.getContextPath|()) 

.append (“<br>”) 
„append ("数据 为 : <br>”) .append (buffer) ; 
) 


service 层 读 取 函数 主要 实现 代码 ， 如 代码 清单 4-49 所 示 。 


代码 清单 4-49 service 层 读 取 函 数 主要 代码 


/** 
* 根据 rowkey 和 版 本 个 数 查 询 数据 
* Qparam stumbers 
* Qparam num 
* Qreturn 
* Qthrows IOException 
* 
/ 
public List«HBaseData» read(String stumbers, int num) throws IOException { 
String[] stumbersArr = StringUtils.split(stumbers, Utils.COMMA); 
Connection connection = ConnectionFactory.createConnection (Utils.getConfiguration()); 
Table table 
— connection.getTable (TableName.valueOf (Utils.IDENTIFY RMB RECORDS)); 
List«HBaseData» list = new ArrayLlist«»(); MEME 
Get get = null; 
try { 
List«Get» gets = new ArrayLlist«»(); 
for (String stumber : stumbersArr) { 
get = new Get(stumber.trim().getBytes()); 
get.setMaxVersions (num); 
gets.add (get); 


) 

Result[] results = table.get (gets); 

Cell[] cells; 

for (inti = 0; i < results.length; i++) { 

cells = results[i].rawCells(); 

list.addAll (getHBaseDataListFromCells (cells)); 


} 
return list; 
) catch (Exception e) { 
e.printStackTrace(); 


) 


return null; 


思考 : 
1) 针对 疑似 伪钞 冠 字号 ， 查 询 出 其 所 有 信息 ， 并 找到 对 应 的 操作 人 相关 信息 。 


2) 编写 相关 前 台 页 面 及 后 台 代码 实现 1 相 天 功能 。 


4.7 本章 小 结 


本 章 向 读者 介绍 了 HBase 的 丰富 内 容 ， 包 括 HBase 的 特点 、 基 本 操作 、 体 系 结构 、 数 据 模型 、 它 与 其 他 大 数据 框架 的 关系 ， 以 及 如 何 使 用 HBase 编 程 、 表 设计 等 内 容 。 


通过 本 章 的 内 容 ， 读 者 可 以 了 解 到 ，HBase 是 一 个 开源 的 、 分 布 式 的 、 多 版 本 的 、 面 向 列 的 存储 模型 。 它 与 传统 的 关系 型 数据 库 有 着 本 质 的 不 同 ， 并 且 在 某 些 场合 中 ，HBase 拥 有 其 他 数据 库 所 不 具有 的 
优势 。 它 为 大 型 数据 的 存储 和 茶 些 特殊 的 应 用 提供 了 很 好 的 解决 方案 。 


本 章 还 通过 一 个 真实 的 企业 案例 分 析 如 何 应 用 HBase 相 关 技 术 解 决 相关 业务 ， 实 现 相关 功能 ， 使 读者 可 以 真正 认识 到 HBase 在 企业 、 在 实际 生产 环节 中 的 用 途 。 


第 5 草 ”大 数据 处 理 一 Pig 


Pig 是 Apache 平 台 下 的 一 个 免费 开源 项 目 ， 它 为 大 型 数据 集 的 处 理 提供 了 更 高 层次 的 抽象 ， 是 一 个 基于 Hadoop 的 大 规模 数据 分 析 平 台 ， 主 要 包括 两 部 分 : 用 于 描述 数据 流 的 语言 Pig Latin 和 执行 Pig Latin 程 
序 的 执行 环境 。 接 下 来 将 详细 叙述 Pig 的 相关 内 容 。 


5.1 Pig 概述 


Pig 是 用 来 处 理 大 规模 数据 的 高 级 查询 语言 ， 结 合 Hadoop 使 用 ， 可 以 在 处 理 海量 数据 时 达到 事半功倍 的 效果 。Pig 为 MapReduce 框 架 提 供 了 一 套 类 SQL 的 数据 处 理 语言 ， 称 为 Pig Latin。 使 用 Pig Latin 
可 以 对 数据 进行 加 载 、 排 序 、 过 滤 、 求 和 、 分 组 、 关 联 、 存 储 操作 ，Pig 也 可 以 由 用 户 自 定 义 一 些 函 数 对 数据 集 进 行 操作 ， 也 就 是 UDF (user-defined functions) 。 


Pig Latin 和 传统 的 SQL 语言 很 相似 ， 但 整体 上 来 看 SQL 是 一 种 声明 式 语言 而 Pig Latin 属 于 过 程式 语言 。 在 SQL 中 我 们 指定 需要 完成 的 任务 ， 而 在 Pig Latin 中 我 们 则 指定 任务 完成 的 方式 。Pig 语 句 通常 按 
照 如 下 的 格式 来 编写 : 


通过 LOAD 语 和 句 从 文件 系统 读 取 数据 。 


` 通过 一 系列 “关系 转换 ”语句 对 数据 进行 处 理 。 


| 通过 STORE 语句 把 处 理 结果 输出 到 文件 系统 中 ， 或 使 用 DUMP 语 名 把 处 理 结果 输出 到 屏幕 上 。 


Pig 有 两 种 运行 模式 : Local 模 式 和 MapReduce 模 式 。 当 Pig 在 Local 模 式 下 运行 时 ， 只 访问 本 地 一 台 主机 ， 操 作 本 地 文件 系统 ， 数 据 处 理 在 本 地 JVM 中 进行 ; 当 Pig 在 MapReduce 模 式 下 运行 时 ， 它 将 


访问 一 个 Hadoop 人 集群， 操作 的 是 HPDFS。MapReduce 模 式 下 ，Pig 会 将 数据 处 理 过 程 转化 为 一 系列 MapReduce 任 务 
用 户 使 用 Pig Latin 进 行 编程 以 及 程序 运行 的 过 程 中 ， 都 可 以 节省 大 量 时 间 ， 提 高 效率 。 


5.1.1 Pig Latin 简介 


于 Hadoop 集 群 之 上 ， 而 MapReduce 程 序 的 优化 主要 由 Pig 系 统 来 完成 。 因 此 , 在 


Pig Latin 是 一 种 面向 数据 流 的 编程 语言 ， 一 条 语句 就 是 一 个 操作 ， 得 到 一 个 关系 ， 一 个 Pig Latin 程 序 由 一 组 语句 构成 。Pig 中 是 以 关系 为 单位 进行 数据 转换 的 ， 并 且 为 保证 语句 的 正确 性 ， 一 个 关系 以 


分 号 作为 结束 符 。 与 数据 库 的 表 结构 类 似 ， 如 果 一 个 关系 对 应 一 张 表 ， 元 组 则 可 看 成 由 多 个 字段 组 成 的 一 行 记录 ，。 


如 表 5-1 所 示 ，Pig Latin 中 常用 命令 有 LOAD，STORE，FILTER，FOREACH，GROUP，ORDER，SPLT，JOIN 等 。 


表 5-1 Pig Latin 常 用 人 


ə 
" 


类 型 操作 描述 
从 文件 系统 加 载 数据 ， 存 人 关系 
加 载 与 存储 将 一 个 关系 存储 到 文件 系统 中 
将 关系 打印 到 控制 台 
从 关系 中 过 滤 不 需要 的 行 
从 关系 中 删除 重复 的 行 
从 关系 中 过 滤 或 添加 字段 
从 关系 中 随机 取样 
连接 两 个 或 多 个 关系 
| 在 一 个 关系 中 对 数据 进行 分 组 
分 组 与 连接 一 
在 两 个 或 更 多 关系 中 对 数据 进行 分 组 
获取 两 个 或 更 多 关系 的 乘积 
" 根据 字段 对 关系 进行 排序 
限制 关系 的 元 组 个 数 
合并 与 切 分 
把 某 个 关系 切 分 成 两 个 或 多 个 关系 


如 图 5-1 所 示 ， 当 在 MapReduce 模 式 下 执行 Pig Latin 程 序 时 ， 系 统 首先 会 对 程序 逐 行 进行 语法 语义 检查 (Parse/Sementic) ， 通 过 后 解释 器 会 对 其 生成 相应 的 逻辑 计划 (Logical Plan) ， 优 化 器 


(Logical Optimizer) 对 生成 的 逻辑 计划 进一步 优化 处 理 ， 当 遇 到 DUMP、STORE 命 令 时 ， 编 译 器 (Logical To Physical Translator) 将 逻辑 计划 编译 成 物理 计划 (Physical Plan) ， 逻 辑 计划 最 终 由 编译 
器 (Physical To MR Translator) 编译 为 MapReduce 程 序 执行 。 


Logical Optimizer 


Logical Plan 


. Logic To Physical Translator 


图 5-1 Pig Latin 执 行 流程 图 


Pig Latin 中 提供 了 一 些 与 Hadoop 交 互 的 命令 ,使 用 这 些 命令 可 以 直接 操作 Hadoop 文 件 系 统 ， 非 常 类 似 hadoop fs 命令 ， 常 用 交互 命令 如 表 5-2 所 示 。 


表 5-2 常用 交互 命令 


类 J $ 4 描 述 
打印 一 个 或 多 个 文件 内 容 
改变 当前 目录 
拷贝 本 地 文件 或 目录 到 HDFS 
拷贝 HDFS 文件 或 目录 到 本 地 
复制 文件 或 目录 
Hadoop 文件 系统 操作 打印 文件 列表 信息 
创建 新 目录 
移动 文件 或 目录 
打印 当前 工作 目录 路 径 
删除 一 个 文件 或 目录 
- 强制 删除 文件 或 目录 
终止 某 个 MapReduce 作业 
在 一 个 新 的 Grunt 外 壳 程 序 中 以 批 处 理 模式 运行 一 个 脚本 
- 在 当前 Grunt 外 过 程序 中 运行 脚本 
设置 Pig 选项 
退出 解释 器 
显示 可 用 的 命令 或 选项 


另外 ，Pig Latin 也 提供 了 一 些 诊断 命令 ， 例 如 ILLUSTRATE 和 EXPLAIN ， 以 及 自 定 义 函 数 中 用 到 的 命令 ， 如 REGISTER 和 DEFINE。 


5.1.2 Pig 数据 类 型 


Pig 拥 有 丰富 的 数据 类 型 ， 主 要 可 以 分 为 两 大 类 : 基本 类 型 和 复杂 类 型 。Pig 基 本 数据 类 型 包括 : int、long、float、double、boolean、chararray 和 bytearray 等 ，Pig 复 杂 数 据 类 型 包括 : 元 组 
(tuple) 、 包 (bag) 和 映射 (map) 等 ， 如 表 5-3 所 示 。 


表 5-3 Pig 常用 数据 类 型 


数据 类 型 描 X 
int,long,float,double 和 Java 中 对 应 的 数值 类 型 相同 
bytearray 类 似 于 表示 二 进 制 大 对 象 的 Java 的 byte 数组 ， 是 Pig 中 的 默认 类 型 
chararray 和 Java 中 对 应 的 string 类 型 相同 
boolean 有 True/False 两 个 取 值 
tuple 类 似 数据 库 表 中 的 一 条 记录 
bag 元 组 的 无 序 集合 
map 键 值 对 的 集合 ， 键 与 值 之 间 以 “# ”分 隔 


针对 复杂 数据 类 型 举例 说 明 如 下 。 
CUR: 字段 或 属性 值 的 集合 。 
例如 : (OH，Mark，Twain，31225) 


E: 元 组 的 无 序 集合 ， 大 括号 内 元 组 之 间 用 过 号 分 隔 。 例 如 : 


OH, Mark, Twain, 31225), 
UK, Charles, Dickens, 42207), 
E, Robert, Frost, 11496) 


E 


= 一 一 一 一 一 


映射 : 键 值 对 的 集合 ， 中 括号 内 ， 键 与 值 之 间 以 # 分 隔 (# 是 系统 默认 ， 不 可 更 改 ) ， 键 值 对 之 间 用 运 号 分 隔 。 例 如 : 


[statefOH, namefMark Twain, zip#31225] 


5.1.3 ”Pig 与 Hive 比 较 


Pig 和 Hive 都 是 Apache 平 台 下 的 项 目 ， 两 者 有 很 多 共同 点 ， 都 拥有 自己 的 表达 语言 ， 目 的 是 将 MapReduce 的 实现 进行 简化 ， 并 且 读 写 操作 数据 都 基于 HDFS 分 布 式 文件 系统 。 
pig 与 Hive 基 于 其 特性 对 比如 表 5-4 所 示 。 


表 5-4 Pig 与 Hive 对 比 


特 性 Hive 
语言 PigLatin HiveQL 
表 概 念 有 
远程 服务 有 (Thrift ) 
FH XE X. PR ZR 有 


Shell 命令 行 
Web 访问 接口 
JDBC/ODBC 


对 | 二 | 过 


说 明 如 下 。 

语言 : 两 者 都 有 对 应 的 操作 语言 ， 编 写 的 程序 最 后 都 转换 为 MapReduce 程 序 运行 。 

AUS: Hive 中 有 一 个 “ 表 ” 的 概念 ， 但 Pig 中 没有 表 的 概念 。 

- 远程 服务 : Hive 可 以 依托 于 Thrift 启 动 一 个 远程 服务 ， 提 供 远 程 调 用 ; Pig 中 没有 这 样 的 功能 。 


| 自 定义 函数 : 两 者 都 提供 UDF， 可 根据 用 户 需求 来 自 定义 函数 。 


.Shell 命令 行 : 都 有 其 对 应 的 Shell 命 令 行 ， 而 且 Pig 可 以 直接 执行 ls、cat 这 样 的 命令 ， 但 Hive 不 支持 这 样 使 用 。 

Web 访问 接口 : Hive 支 持 通过 浏览 器 访问 ， 可 以 在 Web 页 面 中 编写 HiveQL 语 句 ; Pig 不 支持 Web 访 问 。 

. JOBC/ODBC: Hive 可 以 通过 JDBC/ODBC 远 程 访问 Hive， 远 程 需要 启动 Hive-Server2 服 务 ; Pig 不 支持 远程 调用 。 

Pig Latin 是 面向 数据 流 的 编程 语言 ， 而 HiveQL 是 一 种 描述 型 编程 语言 ， 二 者 最 大 的 区 别 在 于 对 作业 执行 方式 的 控制 粒度 不 同 。 

同样 一 个 任务 ，HiveQL 只 需 定义 要 执行 的 操作 即 可 ，HiveQL 查 询 规 划 器 会 负责 安排 HiveQL 命 令 的 执行 顺序 等 。 而 Pig Latin 类 似 于 直接 在 查询 规划 器 这 一 层 操 作 数 据 ， 因 此 需要 用 户 自己 一 步 一 步 地 根 
据 数据 流 的 处 理 方式 来 编程 ， 即 用 户 要 设计 数据 流 的 每 一 个 步骤 。 


Hive 和 Pig 的 选用 最 终 取决 于 用 户 需求 ， 如 果 用 户 更 希望 使 用 熟悉 的 SQL 接 口 操作 数据 ， 很 明显 应 当选 用 Hive。 但 如 果 有 专门 人 员 以 数据 流水 线 的 方式 考虑 问题 ， 并 需要 对 作业 运行 方式 进行 更 细 粒 度 的 


控制 ， 那 么 Pig 可 能 会 是 一 个 更 好 的 选择 。 


5.2 ”配置 运行 Pig 


Pig 的 安装 配置 较为 简单 ， 没 有 过 多 的 配置 文件 需要 修改 。Pig 安 装 之 后 ， 有 本 地 和 MapReduce 两 种 运行 模式 ， 下 面 针 对 这 两 种 运行 模式 做 简单 介绍 。 


52.1 ”Pig 配置 
本 书 中 ， 如 无 特殊 说 明 ， 使 用 的 Pig 都 是 0.15.0 版 本 ， 如 果 读 者 使 用 其 他 版 本 请 参考 本 节 及 官网 文档 进行 配置 。Pig 的 配置 包括 以 下 几 个 步骤 : 


1) 上 传 pig-0.15.0.tar.gz 到 Linux 机 器 ， 并 解压 到 /usr/local 目 录 ， 其 命令 如 下 所 示 。 


tar -zxvf pig-0.15.0.tar.gz -C /usr/local 


2) 编辑 /etc/profile， 添 加 Pig 环 境 变量 。 


export PIG HOME-/usr/local/pig-0.15.0 
export PATH-SP G HOME/bin: $PATH 


3) Jar 包 配置 : 将 $HADOOP_HOME/share/hadoop/yarn/lib 下 的 jline*.jar 文 件 替 换 为 /usr/local/pig-0.15.0/jline-1.0.jar 文 件 。 
4) 启动 Pig， 执 行 命令 : pig. 
5.2.2 ”Pig 运 行 模式 
运行 运行 方式 ,分 别 为 : Grunt Shell 方 式 、 脚 本 文件 方式 、 嵌 入 式 程序 方式 。 下 面 将 对 运行 模式 及 方式 进行 介绍 。 


Pig 的 运行 模式 有 本 地 模式 (Local 模 式 ) 和 MapReduce 模 式 ， 每 种 运行 模式 都 有 3 种 运行 


1. 本 地 模式 
本 地 运行 模式 下 ，Pig 运 行 在 单个 JVM 中 ， 访 问 本 地 文件 系统 ， 该 模式 用 于 测试 或 处 理 小 规模 数据 集 。 


(1) Grunt Shell 方 式 


Grunt Shell 和 Windows 中 的 DOS 窗 口 非常 类 似 ， 在 这 里 用 户 可 以 一 条 一 条 地 输入 命令 对 数据 进行 操作 ， 启 动 命令 如 下 所 示 。 


pig -x local 


(2) 脚本 文件 方式 
使 用 脚本 文件 作为 批 处 理 作 业 来 运行 Pig 命 令 ， 它 实际 上 是 第 一 种 运行 方式 中 命令 的 集合 ， 使 用 如 下 命令 可 以 运行 Pig 脚 本 。 


pig -x local script.pig 


其 中 ，script.pig 是 对 应 的 Pig 脚 本 ， 用 户 在 这 里 需要 正确 指定 Pig 脚 本 的 位 置 ， 否 则 ， 系 统 将 不 能 识别 。 例 如 ，Pig 脚 本 放 在 “/root/pig” 目 录 下 ， 那 么 这 里 就 要 写成 “/root/pig/script.pig”。 

(3) 谋 入 式 程序 方式 

比如 把 Pig 命 令 幅 入 Java 语 言 中 ， 通 过 运行 这 个 嵌入 式 程序 来 执行 Pig 命 令 。 首 先 需 要 编写 特定 的 Java 程 序 (主要 用 到 PigServer 类 ) ， 并 且 将 其 编译 生成 对 应 的 class 文 件 或 package 包 ， 然 后 再 调用 
main 遂 数 运 行程 序 。 关 于 嵌入 式 程序 方式 ， 本 书 不 做 过 多 介绍 ， 读 者 可 自行 搜索 相关 资料 。 

2.MapReduce 模 式 

在 MapReduce 运 行 模式 下 ，Pig 访 问 HDFS， 并 将 查询 翻译 为 MapReduce 任 务 提交 到 Hadoop 集 群 中 进行 处 理 。 


(1) Grunt Shell 方 式 


与 本 地 模式 中 的 Grunt Shell 方 式 类 似 ， 区 别 在 于 启动 方式 ，MapReduce 模 式 下 的 启动 方式 如 下 所 示 。 
pig 或 pig -x mapreduce 


(2) 脚本 文件 方式 


与 本 地 模式 中 脚本 文件 方式 类 似 ， 区 别 在 于 执行 命令 不 同 ，MapReduce 模 式 下 的 执行 命令 如 下 所 示 。 


pig script.pig 或 pig -x mapreduce script.pig 


其 中 ，script.pig 是 对 应 的 Pig 脚 本 ， 用 户 在 这 里 也 需要 正确 指定 Pig 脚 本 的 位 置 ， 否 则 ， 系 统 将 不 能 识别 。 


(3) 岁入 式 程 序 方式 


与 本 地 模式 下 的 嵌入 式 程序 方式 类 似 ， 区 别 在 于 MapReduce 模 式 下 操作 的 是 HDFS 中 的 数据 ， 任 务 的 执行 是 在 Hadoop 集 群 之 上 。 


5.3 Pig Latin 操 作 


Pig 命 令 可 以 分 为 两 大 类 : 数据 加 载 存 储 和 数据 转换。 数据 加 载 使 用 OAD 命 令 ， 加 载 数据 可 从 本 地 或 HDFS。 人 存储 使 用 STORE 命令 ， 数 据 可 存储 到 本 地 或 HDFS，STORE 命 令 可 触发 编译 器 ， 将 查询 的 


逻辑 计划 编译 为 物理 计划 ，DUMP 命 令 也 有 此 功能 。 


5.3.1. 数据 加 载 


MapReduce 模 式 和 本 地 模式 下 进入 Pig 后 所 在 的 目录 有 些 区 别 ， 以 root 用 户 为 例 ， MapReduce 模 式 进 入 Pig 后 ， 其 目录 为 hdfs: //master: 8020/user/root。 本 地 模式 进入 Pig 后 ， 其 目录 为 当前 工作 


目录 ( 即 进入 Pig 前 后 目录 不 变 ) 。 


1. 数 据 加 载 命令 : LOAD 


现 有 mydata a.txt、mydata_b.txt、mydata_c.txt、mydata_d.txt 四 个 文件 ， 内 容 如 表 5-5 所 示 。 


x ft 名 


mydata a.txt 


mydata b.txt 


mydata c.txt 


mydata d.txt 


数据 说 明 : 
1) mydata_b.txt 和 mydata_c.txt 内 容 相同 ， 字 段 以 逗号 分 隔 。 


2) mydata a.txt 和 mydata_d.txt 字 段 以 \t' 分 隔 。 


MapReduce 模 式 下 ， 将 4 个 文件 分 别 以 不 同方 式 导 入 A、B、C、D 四 个 关系 中 ， 


代码 清单 5-1 LOAD 导 入 数据 


表 5-5 文件 及 数据 示例 


1 Tom 2] 2000 
2 Mary 20 2800 
3 Heny 19 2500 
4 Alice 22 3200 
5 David 18 3000 
1, Tom,21,2000 
2,Mary,20,2800 
3,Heny,l9,2500 
4,Alice,22,3200 
5.David,18,3000 

| Tom 21 2000 
2 Mary 20 2800 
3 Heny 19 2500 
4 Alice 22 3200 
5 David 18 3000 


导入 命令 如 代码 清单 -1 所 示 。 


数 d 


{(high,low),(high,low)} 
{(low,low)} 
{(low,high)} 
{(high,high),(low,low)} 
{(high,high)} 


LOAD  Mnydata a.txt'; 

LOAD ‘mydata b.txt' USING PigStorage(','); 
LOAD ‘mydata c.txt' USING PigStorage(',') AS ( 
id:chararray, 

name:chararray, 

age:int, 

salary:double 


QU» 
How gu 


); 

D = LOAD 'mydata d.txt' AS ( 

id:chararray, 

name:chararray, 

age:int, 

salary:double, 

states:bagít:tuple (statel:chararray,state2:chararray)] 
Jus 


DUMP A; 


针对 代码 清单 5-1 导 入 数据 做 如 下 说 明 。 


CARA: 数据 mydata_a.txt 在 HDFS 上 默认 目录 ,使 用 默认 分 隔 符 \t， 字 段 名 默认 为 $0，$1http://www.hzcourse.com/resource/readBook? 


path=/openresoutces/teach_ebook/uncompressed/16328/OEBPS/Text/...。 


| 关系 B: USING PigStorage (', ') 指定 分 隔 符 使 用 去 号 ， 其 他 与 关系 A 相 同 。 


. 关系 C: AS 关键 字 指定 字段 名 及 字段 类 型 ， 其 他 与 关系 B 相 同 。 


| 关系 D: 关系 D 结 构 与 关系 C 相 比 增加 一 个 字段 states，states 类 型 为 包 ，t 为 包 中 元 组 的 名 称 。 
" DUMP 语 和 句 的 作用 是 输出 关系 到 控制 台 。 
使 用 describe 命 令 可 以 查看 关系 的 结构 ， 针 对 代码 清单 5-1 中 命令 得 到 A、B、C、DD 四 个 关系 ， 其 结构 如 表 5-6 所 示 。 


表 5-6 关系 结构 


关系 结构 及 说 明 


A Schema for B unknown， 该 结构 中 通过 $0，$1… 引 用 字段 ， 字 段 类 型 


为 bytearray 
Schema for B unknown， 该 结构 中 通过 $0，$1… 引 用 字段 ， 字 段 类 型 为 bytearray 
C fid: chararray,name: chararray,age: int,salary: double} ， 通 过 字段 名 称 引用 字段 


tid: chararray,name: chararray,age: int,salary: double,states: ft: (statel: chararray,state2: chararray)}}, 
通过 字段 名 称 引 用 字段 
2. 动 手 实践 : LOAD 数 据 加 载 
本 次 实验 主要 练习 一 些 Pig 与 Hadoop 交 互 命令 ， 以 及 对 数据 加 载 命令 的 使 用 。 通 过 本 次 实验 ， 可 以 帮助 读者 加 深 对 Pig 加 载 数据 的 理解 。 
实验 步骤 : 
1) 以 Mapreduce 模 式 进入 Pig， 上 传 数据 pig/data/salaries_.txt 和 pig/data/salaries.txt 到 HDFS 相 应 目录 。 
2) 使 用 cat 查 看 上 传 的 数据 salaries_.txt 和 salaries.txt 数 据 内 容 。 
3) 加 载 salaries.txt 到 关系 salaries， 字 段 为 gender、age、income、zip， 字 段 类 型 对 应 为 chararray、int、double、int。 
4) 加 载 salaries_.txt 到 关系 salaries ， 字 段 为 gender、age， 字 段 类 型 默认 。 
5) 加 载 salaries_.txt 到 关系 salaries 2， 字 上段 默 认 。 
6) 查看 salaries、salaries 和 salaries 2 的 结构 。 
7) 输出 关系 salaries 。 
思考 : 
1) 步骤 4) 中 ， 关 系 salaries 的 字段 类 型 是 什么 ? 为 何不 是 其 他 类 型 ? 


2) 实验 步骤 5) 中 得 到 关系 salaries 2， 如 何 使 用 其 中 的 字段 ? 


5.3.2 ”数据 存储 


数据 存储 使 用 STORE 命令 ， 人 存储 的 对 象 是 一 个 关系 。MapReduce 模 式 下 只 能 将 数据 存储 到 HDFS， 本 地 模式 下 只 能 将 数据 存储 到 本 地 文件 系统 。 
1. 数 据 存 储 命令 : STORE 
存储 数据 时 可 以 使 用 Pig 内 置 的 函数 指定 字段 分 隔 符 例如， 将 代码 清单 5-1 中 的 关系 C 使 用 3 种 方式 存储 ， 存 储 命令 如 代码 清单 5-2 所 示 。 


代码 清单 5-2 存储 数据 


1) STORE C INTO `C’; 
2) STORE. C INTO ‘C’ USING PigStorage(',"'); 
3) STORE C INTO `C’ USING JsonStorage(); 


针对 代码 清单 5-2 中 命令 做 如 下 说 明 : 

方式 1) 将 关系 C 存 储 到 当前 目录 下 的 C 目 录 ， 使 用 默认 分 隔 符 制 表 符 。 

© 方式 2) 使 用 USING PigStorage (', ') 指定 存储 的 数据 分 隔 符 为 运 号 。 

. 方式 3) 使 用 USING JsonStorage () 指定 存储 的 数据 为 json 类 型 ， 例 如 ， 其 中 一 行 存 储 数据 如 下 : 

2. 动 手 实 践 : STORE 数据 存储 

本 次 实验 主要 练习 STORE 命令 的 使 用 ， 包 括 人 存储 格式 ， 人 存储 路 径 等。 通过 本 次 实验 可 以 帮助 读者 更 加 清晰 地 了 解数 据 人 存储 。 
实验 步骤 : 

1) 在 MapReduce 和 Local 两 种 模式 下 ， 加 载 数据 pig/data/salaries.txt 到 关系 salaries， 字 段 为 gender、age、income、zip， 字 段 类 型 对 应 为 chararray、int、double、int。 
2) MapReduce 模 式 下 ， 设 置 任务 名 称 为 store job， 使 用 默认 分 隅 符 ， 存 储 关 系 salaries 到 /store default 目 录 。 

3) Local 模 式 下 ， 指 定数 据 存 储 分 隔 符 为 '，'， 存 储 关 系 salaries 到 /root/store_Pig-Store 目 录 。 

4) Local 模 式 下 ， 指 定数 据 存 储 格 式 为 Json 类 型 ， 存 储 关系 salaries 到 /root/store Json 目 录 。 


思考 : 


1) 实验 步骤 2) 的 结果 数据 中 ， 分 隔 符 是 什么 ?这 里 的 默认 分 隔 符 和 加 载 数据 时 的 默认 分 隔 符 一 样 吗 ? 
2) 进入 Local 模 式 下 ， 目 录 是 什么 ?实验 步骤 3) 中 store_Pigstore 目 录 需 要 手动 创建 吗 ? 
5.3.3 “Pig 参数 替换 


实际 应 用 中 ， 经 常会 以 执行 Pig 脚 本 的 方式 来 进行 数据 处 理 。 为 了 增加 脚本 的 灵活 性 ， 可 以 在 Pig 脚 本 文件 中 设置 一 些 变量 ， 在 运行 脚本 时 ， 动 态 为 脚本 中 的 变量 赋值 。 例 如 ， 脚 本 文件 myscript.pig 内 
容 如 代码 清单 5-3 所 示 。 


代码 清单 5-3 ”myscript.pig 脚 本 


E = LOAD 'Sinput' USING PigStorage(',') AS (id: chararray,name: chararray,age: int,salary: double); 
SET job.name  'test script'; 
STORE E INTO '$output' USING PigStorage('Nt!); 


myscript.pig 脚 本 说 明 如 下 : 


LOAD 加 载 数据 $input 到 关系 E，SET job.name 命 令 设置 任务 名 称 为 test_script，STORE 命 令 存储 关系 E 到 $output 目录 。 其 中 $input、$output 是 变量 ,分 别 对 应 输入 数据 和 存储 目录 ， 需 要 在 执行 肢 
本 时 为 变量 赋值 。 执 行 myscript.pig 脚 本 有 如 下 两 种 方式 : 


1) 使 用 -p 参 数 为 脚本 中 变量 赋值 。 


pig -x local -p input=mydata c.txt -p output= script out myscript.pig 


其 中 ， 输 入 数据 使 用 pig/data/mydata_c.txt， 输 出 目录 为 script_out。 


2) 使 用 -param flle 参 数 指定 参数 文件 myscript.params。 


pig -param file myscript.params myscript.pig 


其 中 myscript.params 文 件 内 容 如 下 所 示 : 


input=mydata c.txt 
output= script out 


5.3.4. 数据 转换 


Pig Latin 是 一 种 面向 数据 流 的 编程 语言 ， 数 据 流 的 特征 主要 体现 在 数据 处 理 过 程 中 ， 以 关系 为 单位 将 数据 进行 有 序 的 转换 。 每 一 次 转换 产生 一 个 新 的 关系 ， 每 一 个 关系 保留 了 此 时 数据 的 状态 。Pig 中 的 
转换 命令 与 传统 的 SQL 语言 在 理解 上 有 许多 类 似 的 地 方 ， 读 者 可 以 对 比 传统 的 SQL 语言 来 理解 Pig 转 换 命令 。 接 下 来 将 详细 介绍 Pig 数 据 转换 时 常用 的 命令 。 


1. 分 组 命令 GROUP 


GROUP 意思 为 分 组 ，Pig 中 可 以 对 字段 进行 分 组 ， 也 可 以 对 所 有 数据 进行 分 组 。 当 然 ，Pig 中 也 有 类 似 传统 SQL 语言 中 组 函数 、 组 约束 等 概念 ， 在 后 面 的 学 习 中 会 慢 慢 接触 到 这 些 概念 ， 此 处 主要 介绍 分 
组 后 对 应 关系 的 结构 。 


GROUP 语法 如 下 : 


GROUP 关系 名 BY (字段 1， 字 上 段 2，...) 
GROUP 关系 名 ALL; 


例如 ， 创 建 一 个 关系 salaries， 有 4 个 字段 : 性 别 gender， 年 龄 age， 薪 水 salary， 编 码 zip。 使 用 数据 pig/data/salaries.txt， 创 建 关 系 salaries 命 令 如 代码 清单 5-4 所 示 。 


代码 清单 5-4 ”创建 salaries 关 系 


salaries = LOAD 'salaries.txt' USING PigStorage(',') AS ( 
gender:chararray, 

age:int, 
salary:double, 
zipzint); 


关系 salaries 的 结构 如 下 : 


salaries: (gender: chararray,age: int,salary: double,zip: int} 


下 面 将 使 用 不 同 的 分 组 方式 创建 关系 ， 通 过 关系 的 结构 对 比 来 理解 分 组 。 例 如 ， 使 用 按 age 分 组 ， 按 gender、age 分 组 ， 按 所 有 数据 分 组 这 3 种 分 组 方式 创建 关系 ， 具 体 创建 关系 的 命令 及 对 应 的 结构 如 
表 5-7 所 示 。 


入 


5 
NS 


d 5-7 组 创建 关系 


"T salariesbyage = GROUP salaries salariesbyage: Í group:int,salaries: ender:chararr 
fk age 字段 分 组 yag IESDYUE {group USB {(8 

BY age; ay,age:int,salary: double,zip: int)] 
salariesbygender age:[group: (gender:chararray, 


salariesbygender age = GROUP 


fk gender, age 分 组 age:int),salaries: ((gender: chararray,age: int,salary: 


double,zip: int)}} 


salaries BY (gender,age); 


按 所 有 数据 分 组 salaries group all = GROUP salaries group all:{group: chararray,salaries: 
EI £ 


salaries ALL; {(gender: chararray,age: int,salary: double,zip: int)}} 


针对 表 5-7 做 如 下 说 明 : 
1) 关系 salariesbyage 以 age 进行 分 组 ， 其 结构 中 group: int 说 明 分 组 字段 (age) 为 int 型 。 


2) 关系 salariesbygender age 以 gender、age 两 个 字段 进行 分 组 ， 其 结构 中 group: (gender: chararray, age: int) 指明 分 组 结构 ，salaries 对 应 分 组 中 的 包 名 。 


3) 关系 salaries_ group _all 是 将 整个 关系 Salaries 作 为 一 组 ， 使 用 命令 GROUP ALL。 其 结构 中 ，group: chararray 指 明 分 组 字段 〈 分 组 字段 值 系 统 默认 为 字符 串 all) 为 chararray 型 。salaries 对 应 分 组 
中 的 包 名 ， 且 结果 只 有 一 组 。 


分 组 后 的 3 个 关系 的 部 分 数据 如 表 5-8 所 示 。 


表 5-8 ”分 组 后 的 数据 


X R 数 d 


(1,1(M,1,0.0,95050),(E,1,0.0,95102)]) 
(3,1(F,3,0.0,95050)1) 
(4,1(F,4,0.0,95103)1) 


lariesb 
BE (6,1(M,6,0.0,95051)1) 
(14,1(M,14,0.0,95105)]) 
(15,1(F,15,0.0,95050),(M,15,0.0,95103)1) 
(ZÈ) 
X 5 2 15 
((M,14),1(M,14,0.0,95105)1) 
((M,15),1(M,15,0.0,95103)1) 
salariesbygender age ((M,17),1(M,17,0.0,95103),(M,17,0.0,95102)]) 
((M,19),1(M,19,0.0,95050)1) 
((M,23),1(M,23,64000.0,94041),(M,23,89000.0,95105)]) 
salaries group all (all, ((F,84,14000.0,95051),(F,39,3000.0,94040),(M,45,48000.0,94041)---1) 


2. 过 滤 命 令 FILTER 


FILTER 命 令 主要 用 于 数据 的 过 滤 ， 类 似 于 SQL 语言 中 的 WHERE 关键 字 。 


FILTER 语 法 如 下 : 


FILTER 关系 名 BY 表达 式 


例如 ， 基 于 代码 清单 5-1 创 建 的 关系 salaries， 使 用 FILTER 命 令 创 建 关 系 ， 具 体 命令 如 代码 清单 5-5 所 示 。 


代码 清单 5-5 使 用 FILTER 创 建 关系 


LTER salaries BY salary >= 10000.0; 
LTER salaries BY gender == 'F' AND age >= 50; 
ER salaries BY NOT gender MATCHES  'F'; 


Hog dg 
nj Hj 器 
器 


E 
- 


针对 代码 清单 5-5 做 如 下 说 明 : 
1) 关系 FB 中 ，gender=='F'AND age» =50 指 定 过 滤 条 件 ，= = 可 匹配 字符 串 。 


2) 关系 FC 中 ，MATCHES 关 键 字 用 来 匹配 字符 串 ， 与 == 功 能 类 似 ， 加 上 NOT 关 键 字 可 以 进行 取 反 ， 例 如 ，NOT gender MATCHES'F'， 注 意 NOT 关 键 字 位 置 。 


LIMIT 关 键 字 进行 数据 的 筛选 ， 与 SQL 语言 有 些 区 别 ， 传 统 SQL 语 言 可 以 指定 从 某 一 行 开 始 筛选 数据 。 而 Pig 中 默认 只 能 从 第 一 行 开 始 筛选 ， 后 面 跟 要 筛选 的 行 数 。 


LIMIT 语 法 如 下 : 


LIMIT 关系 名 数值 


例如 ， 基 于 代码 清单 5-1 创 建 的 关系 salaries， 使 用 LIMIT 命 令 创 建 关 系 ， 命 令 如 下 : 


salaries limit = LIMIT salaries 3; 


说 明 : 关系 salaries limit 从 关系 salaries 中 取出 前 3 条 数据 。 
4. 去 重 命令 DISTINCT 


DISTINCT 命 令 用 于 去 重 ， 与 传统 SQL 语 言 朋 区别， 传统 SQL 语 言 DISTINCT 关 键 字 后 跟 字段 ， 对 一 个 或 多 个 字段 进行 去 重 ;而 Pig 中 DISTINCT 关 键 字 后 跟 关 系 ， 而 非 字 段 ， 表 示 整 行 数据 参与 去 重 (BU 
所 有 字段 ) 。 


DISTINCT 语 法 如 下 : 


DISTINCT 关系 名 ; 


例如 ， 基 于 代码 清单 5-1 创 建 的 关系 salaries， 使 用 LIMIT 命 令 创建 关系 ,命令 如 下 : 


unique salaries = DISTINCT salaries; 


说 明 : 关系 unique_salaries 为 关系 salaries 去 重 之 后 的 数据 。 
5. 排 序 命令 ORDER BY 
ORDER BY 命令 用 于 对 数据 进行 排序 ， 传 统 SQL 语 言 与 Pig 中 对 该 语句 的 用 法 一 样 ， 关 键 字 BY 后 可 跟 一 个 或 多 个 字段 ， 同 时 可 以 指定 升序 或 降序 ， 默 认为 升序 。 


ORDER BY 语法 如 下 : 


ORDER 关系 名 BY 表达 式 


例如 ， 基 于 代码 清单 5-1 创 建 的 关系 salaries， 使 用 ORDER BY 命令 创建 关系 ,命令 如 下 所 示 : 


orderbyage = ORDER salaries BY age ASC; 
orderbyage salary = ORDER salaries BY age ASC, salary DESC; 


说 明 : 关系 agesalary 为 关系 Salaries 先 按 age 字 段 升序 ， 当 age 一 样 时 ， 再 按 salary 降 序 后 的 数据 。 
6. 遍 历 命令 FOREACH 


FOREACH 命 令 配 合 GENERATE 关 键 字 使 用 ， 主 要 用 于 字段 筛选 过 滤 。 类 似 于 SQL 语 言 中 SELECT 关 键 字 后 面 跟 要 查询 的 字段 。GENERATE 关 键 字 后 跟 要 筛选 的 字段 ， 并 可 以 进行 简单 的 计算 。 其 中 筛选 
字段 时 可 以 使 用 级 别 的 方式 ， 比 较 方便 ， 级 别 使 用 “http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16328/OEBPS/Text/..” 表 示 ， 可 以 代表 多 


个 字段 。 


FOREACH 语 法 如 下 : 


FOREACH 关系 名 GENERATE 表达 式 


例如 ， 基 于 代码 清单 -1 创建 的 关系 salaries， 使 用 FOREACH 命 令 创 建 天 系 ， 创 建 命令 如 代码 清单 5-6 所 示 ， 创 建 的 关系 结构 如 代码 清单 -7 所 示 。 


代码 清单 5-6 ”创建 FOREACH 关 系 


A = FOREACH salaries GENERATE gender,age, salary; 

Al = FOREACH salaries GENERATE http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/16328/O0EBPS/Text/..salary; 
B = FOREACH salaries GENERATE agehttp://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/16328/OEBPS/Text/..zip; 
B1 = FOREACH salaries GENERATE agehttp://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/16328/O0EBPS/Text/..; 

C = FOREACH salaries GENERATE salary, salary * 0.07 AS bonus ; 


salariesbygender = GROUP salaries BY gender; 
group count = FOREACH salariesbygender GENERATE group,COUNT (salaries) AS salaries count; 


代码 清单 5-7 FOREACH 关 系 结构 


A: (gender: chararray,age: int,salary: double} 
Al: (gender: chararray,age: int,salary: double] 
B: (age: int,salary: double,zip: int] 
B 
C 


1: {age: int,salary: double,zip: int} 

: {salary: double,bonus: double} 
salariesbygender: (group: chararray,salaries: {(gender: chararray,age: int,salary: double,zip: int)]] 
group count: (group: chararray,salaries count: long} 


其 中 关系 group_count 统 计 的 是 按 性 别 分 组 后 的 人 数 ， 其 结果 如 下 : 


针对 代码 清单 ?5-6 和 代码 清单 5-7 做 如 下 说 明 : 


1) 关系 A 与 A1，B 与 B1 结 构 相 同 ， 代 码 清单 5-6 中 创建 A1、B、B1 关 系 时 用 到 “http://www.hzcourse.com/resource/readBook? 
path=/openresources/teach ebook/uncompressed/16328/OEBPS/Text/..” (级 别 ) ，A1 中 “http://www.hzcourse.com/resource/readBook? 
path=/openresources/teach ebook/uncompressed/16328/OEBPS/Text/..” 表 示 salary 之 前 的 所 有 字段 ，B 中 “http://www.hzcourse.com/resource/readBook? 
path=/openresources/teach ebook/uncompressed/16328/OEBPS/Text/..” 表 示 age 与 zip 之 间 的 所 有 字段 ，B1 中 “http://www.hzcourse.com/resource/readBook? 


path=/openresources/teach ebook/uncompressed/16328/OEBPS/Text/..” 表 示 age 之 后 的 所 有 字段 。 
2) 关系 C 中 使 用 AS 关 键 字 取 别 名 为 bonus， 关 系 group_count 中 使 用 COUNT 遂 数 计算 每 组 中 的 记录 数 。 
7. 找 套 FOREACH 
谋 套 FOREACH 与 一 般 的 FOREACH 语 法 不 一 样 ， 嵌 套 FOREACH 有 谤 套子 句 ， 里 面 可 以 执行 多 条 语句 ， 相 比 一 般 的 FOREACH 语 句 较为 灵活 。 


吝 套 FOREACH 语 法 如 下 : 


蔚 套 FOREACH 一 般配 合 分 组 使 用 ， 其 中 人 0 中 为 子 句 ， 子 句 一 般 是 对 组 进行 的 操作 。 
例如 ， 基 于 代码 清单 5-4 创 建 的 关系 salaries， 使 用 髋 套 FOREACH 创 建 关 系 ， 先 按 性 别 分 组 ， 表 分 别 统 计 各 组 中 不 同年 龄 的 人 数 。 创 建 命令 如 代码 清单 5-8 所 示 。 


代码 清单 5-8 创建 嵌 套 FOREACH 关 系 


gender grp = GROUP salaries BY gender; 
unique ages = FOREACH gender grp { 
ages = gender grp.age; 

unique age = DISTINCT ages; 

GENERATE group, COUNT (unique age); 


说 明 : 

1) 创建 关系 unique_ages 的 语句 中 ， 对 关系 gender_grp 进 行 FOREACH， 关 系 gender_grp 中 有 几 个 组 ，{1} 中 子 句 就 会 执行 几 次 。 子 句 针 对 每 一 个 组 进行 操作 。 
2) 子 句 中 关系 ages 表 示 每 个 组 有 多 少 个 age 值 (这 里 的 age 值 有 可 能 重复 ) 。 

8. 分 支 命令 CASE 


CASE 命 令 类 似 于 Java 里 面 的 多 分 支 结 构 ， 包 含 一 个 或 多 个 WHENhttp://www.hzcourse.com/resource/readBook? 
path=/openresources/teach ebook/uncompressed/16328/OEBPS/Text/...THEN 子 句 ， 以 END 关 键 字 结束 ， 常 在 FOREACH 语 句 中 使 用 。 


CASE 语 法 如 下 : 


FOREACH 关系 名 GENERATE 字段 名 ，( 


N 表达 式 1 THEN 表达 式 或 字段 名 

N 表达 式 1 THEN 表达 式 或 字段 名 

http: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/16328/OEBPS/Text/... 
D) AS FRA; 


Ha 


t 


例如 ， 基 于 代码 清单 ?-1 创 建 的 关系 salaries， 使 用 CASE 命 令 和 FOREACH 命 令 创建 关系 ， 具 体 命令 如 代码 清单 5-9 所 示 。 


代码 清单 5-9 创建 CASE 关 系 


bonuses = FOREACH salaries GENERATE salary, ( 
CASE 
WHEN salary >= 70000.00 T 
WHEN salary « 70000.00 AN 
WHEN salary <= 30000.0 THI 
END) AS bonus; 


EN salary * 0.10 
salary >= 30000.0 THEN salary * 0.05 
N 0.0 


Umum 


Lu 


说 明 : bonusesXzrH, 83/7 WHENhttp://www.hzcourse.com/resource/readBook?path z /openresources/teach ebook/uncompressed/16328/OEBPS/Text/...THENZ&(Fi&4, TRilsalaryze 
段 满足 不 同 的 条 件 ， 得 到 不 同 的 值 。As bonus 语 名 的 作用 是 给 THEN 关 键 字 后 面 的 表达 式 取 别 名 。 


9. 扁 平 命 令 FLATTEN 


FLATTEN， 其 英文 意思 为 : SEE, 使 ( 某 物 ) 变 平 。Pig 中 FLATTEN 命 令 的 主要 作用 是 将 一 个 关系 中 的 复杂 类 型 (主要 指 包 类 型 ) 字段 转换 为 元 组 类 型 。 将 数据 类 型 为 包 的 字段 ， 拆 分 成 一 个 或 多 个 元 
组 ， 进 而 产生 多 行 数据 。 


FLATTEN 语 法 如 下 : 


FLATTEN (关系 名 ) 


例如 ， 有 数据 pig/data/locations.txt， 内 容 如 代码 清单 5-10 所 示 。 


代码 清单 5-10 ”locations.txt 数 据 


Rich remote { (SD), (CA)} 
Ulf onsite { (CA)} 

Tom remote ( (OH), (NY)} 
Barry remote ( (NV), (NY)} 


创建 关系 employees 和 flat employees， 创 建 命令 及 关系 中 的 数据 如 表 5-9 所 示 。 


表 5-9 关系 及 数据 


创建 关系 命令 关系 数据 


employees = LOAD 'locations.txt' AS ( (Rich,remote, ((SD),(CA)]) 
name:chararray, (Ulf,onsite, ((CA)1) 
location:chararray, (Tom,remote, (( OH),(NY))) 
states:bag (t:tuple(state:chararray); (Barry,remote, ((NV),(NY)$) 
); 
flat employees - FOREACH employees GENERATE (Rich,remote, SD) 
name,location, FLATTEN(states) AS state; (Rich,remote,CA) 
(Ulfjonsite, CA) 
(Tom,remote, OH) 
(Tom,remote, NY) 
(Barry,remote,NV) 
(Barry,remote, NY) 


说 明 : 关系 employees 中 字段 states 类 型 为 包 ， 关 系 flat employees 中 FLATTEN (states) 语句 将 states 字 段 拆 分 成 了 一 个 或 多 个 元 组 ， 由 关系 employees 和 关系 flat employees 前 后 数据 对 比 可 知 。 


10. 连 接 命令 JOIN 


JOIN 命令 主要 用 于 连接 ， 其 使 用 与 传统 SQL 语言 中 类 似 。 传 统 SQL 语 言 中 JOIN ON 将 表 之 间 通 过 条 件 相连 接 ， 而 Pig 中 是 通过 JOIN BY 将 关系 连接 起 来 。 根 据 连 接 特点 可 以 分 为 两 大 类 : 内 连接 和 外 连 


(1) 内 连接 
语法 如 下 : 


关系 3 = JOIN 关系 1 BY keyl， 关 系 2 BY key2; 


例如 ， 数 据 pig/data/loc.txt 和 hive/data/dep.txt 内 容 如 表 5-10 所 示 。 


表 5-10 ”loc.txt 和 dep.txt 数 据 


loc.txt dep.txt 
SD Rich Rich Sales 
NV Barry Ulf Management 
CO George Tom Marketing 
CA Ulf Barry Sales 
OH Tom Sara Marketing 


将 数据 pig/data/loc.txt 和 hive/data/dep.txt 分 别 加 载 到 关系 loc 和 dep， 命 令 如 代码 清单 5-11 所 示 。 


代码 清单 5-11 加载 命令 


loc = LOAD 'loc.txt' AS (state:chararray,firstname:chararray); 
dep- LOAD 'dep.txt' AS (firstname:chararray,dept:chararray); 


使 用 JOIN BY 命令 将 关系 loc 和 dep 进 行 连接 ， 具 体 命 令 、 结 构 及 数据 如 表 5-11 所 示 。 


表 5-11 命令 、 结 构 及 数据 


创建 关系 命令 关系 结构 数 8 


innerjoin = JOIN loc BY firstname, innerjoin: 1 (OH,Tom,Tom,Marketing) 

dep BY firstname; loc::state: chararray, (CA,UI£UIf,Management) 
loc::firstname: chararray, (SD,Rich,Rich,Sales) 
dep::firstname: chararray, (SD,Rich,Rich, Marketing) 
dep::dept: chararray (NV,Barry,Barry,Sales) 


j 


说 明 : 关系 loc 和 关系 dep 按 字段 firstname 来 匹配 ， 结 果 只 显示 firstname 字 段 相 同 的 数据 。 
(2) 外 连接 
外 连接 包括 全 连接 、 左 连接 、 右 连接 3 种 连接 方式 。 


外 连接 语法 如 下 : 


关系 3 = JOIN 关系 1 BY keyl [FULL|LEFT|RIGHT] OUTER， 关 系 2 BY key2; 


针对 外 连接 语法 做 如 下 说 明 : 

1) FULL OUTER， 全 连接 ， 关 系 3 包括 关系 1 和 关系 2 中 的 所 有 行 。 

2) LEFT OUTER， 左 连接 ， 关 系 3 包 括 关系 1 的 所 有 行 和 关系 2 中 通过 关键 字 BY 匹配 到 的 行 。 

3) RIGHT OUTER， 右 连接 ， 关 系 3 包括 关系 1 通过 关键 字 BY 匹配 到 的 行 和 关系 2 的 所 有 行 。 

使 用 代码 清单 5-11 中 创建 的 关系 loc 和 dep ， 创 建 外 连接 关系 outerjoin、leftjoin、rightjoin ， 具 体 命令 如 代码 清单 5-12 所 示 。 


代码 清单 5-12 ”创建 外 连接 


outerjoin = JOIN loc BY firstname FULL OUTER,dep BY firstname; 
leftjoin = JOIN loc BY firstname LEFT OUTER,dep BY firstname; 


rightjoin = JOIN loc BY firstname RIGHT OUTER,dep BY firstname; 


外 连接 关系 outerjoin、leftjoin、rightjoin 结 果 如 表 5-12 所 示 。 


表 5-12 外 连接 结果 


outerjoin leftjoin rightjoin 


(OH,Tom,Tom,Marketing) (OH,Tom,Tom,Marketing) (OH,Tom,Tom,Marketing) 
(CA,UIf,UIf,; Management) (CA,UIf,UIf, Management) (CA,UIf,UIf, Management) 
(SD,Rich,Rich,Sales) (SD,Rich,Rich,Sales) (SD,Rich,Rich,Sales) 
(NV,Barry,Barry,Sales) (NV,Barry,Barry,Sales) (NV,Barry,Barry,Sales) 
(CO,George,,) (CO,George,,) (,, Sara, Marketing) 

(,, Sara, Marketing) 


说 明 : 
1) 关系 outerjoin 中 的 (CO, George, , ) . (, , Sara, Marketing) 两 行 数据 是 关系 loc 和 关系 dep 并 没有 匹配 的 行 。 
2) 关系 leftjoin 中 的 (CO，George，，) 一 行 数据 是 关系 loc 和 关系 dep 并 没有 匹配 的 行 。 


3) 关系 rightjoin 中 的 (, , Sara, Marketing) 一 行 数据 是 关系 loc 和 关系 dep 并 没有 匹配 的 行 。 


5.4 ”综合 实践 
Pig 的 基本 知识 到 这 里 已 经 介绍 完了 ， 其 中 Pig Latin 是 学 习 Pig 的 过 程 中 很 重要 的 一 个 模块 ，Pig Latin 主 要 包括 一 些 命令 ， 可 对 数据 进行 加 载 、 转 换 、 存 储 。 需 要 熟练 掌握 这 些 命令 的 单独 使 用 ， 实 际 应 
用 中 ， 才 能 灵活 地 相互 配合 使 用 。 
为 了 帮助 读者 回顾 之 前 学 过 的 知识 ， 接 下 来 有 两 个 实验 ， 主 要 练习 Pig Latin 中 常用 的 命令 。 
5.4.1 动手 实践 : 访问 统计 信息 数据 处 理 
本 次 实验 主要 练习 数据 加 载 LOAD、 存 储 STORE 以 及 FILTER、GROUP、FOREACH、ORDER 等 常用 命令 的 使 用 ， 根 据 数据 说 明 、 实 验 目的 、 实 验 步骤 等 相关 内 容 完成 实验 。 
(1) 数据 说 明 
pig/data/visits.txt 是 某 地 区 访问 统计 信息 ， 第 1 列 为 姓名 ， 第 7 列 为 访问 时 间 ， 第 20 列 为 具体 访问 位 置 (由 于 字段 过 多 ， 且 其 他 字段 试验 中 用 不 到 ， 因 此 这 里 对 其 意思 不 做 说 明 ) 。 
(2) 实验 目的 
找 出 数据 pig/data/visits.txt 中 ， 访 问 过 位 置 (第 20 列 ) 为 “POTUS” 的 人 员 基 本 信息 ， 并 存储 到 文件 中 。 
(3) 实验 步骤 
1) MapReduce 模 式 下 ， 加 载 数据 pig/data/visits.txt 到 关系 visits， 字 段 默 认 。 
2) 统计 关系 visits.txt 中 的 记录 数 。 
3) 统计 访问 过 “POTUS” 的 人 员 记 录 ， 得 到 关系 potus。 
4) 截取 关系 potus 中 的 姓名 、 访 问 时 间 、 具 体 访问 位 置 3 个 字段 ， 依 次 命名 为 name、arrival_time、visit_location， 字 段 类 型 都 为 chararray， 得 到 关系 potus_details。 
5) 将 关系 potus_details 按 name 升 序 排序 ， 得 到 关系 potus_details_ ordered, 
6) 设置 任务 名 称 为 visits job。 
7) 将 关系 potus_details_ordered 存 储 到 目录 /pigtest/potus， 分 隔 符 使 用 “，” 
8) 查看 HDFS 上 关系 potus 对 应 的 数据 。 


思考 : 


1) 实验 步骤 1) 中 字段 为 何 使 用 默认 ? 有 什么 好 处 ? 
2) 实验 步骤 4) 中 默认 字段 怎么 引用 ? 能 否 使 用 级 别 达 到 引用 目的 ? 
54.2 ”动手 实践 : 股票 交易 数据 处 理 
本 次 实验 主要 练习 数据 加 载 LOAD、 存 储 STORE 以 及 GROUP、 罕 套 FOREACH、DISTINCT 等 常用 命令 的 配合 使 用 ， 根 据 数 据说 明 、 实 验 目 的 、 实 验 步骤 等 相关 内 容 完 成 实验 。 
(1) 数据 说 明 
pig/data/daily_stocks.csv 是 多 个 地 区 股票 交易 相关 日 志 数 据 ， 第 1 列 为 交易 所 ， 第 2 列 为 股票 标识 ， 第 3 列 为 交易 时 间 (其 他 字段 试验 中 用 不 到 ， 因 此 这 里 对 其 意思 不 做 说 明 ) 。 
(2) 实验 目的 
找 出 每 个 交易 所 拥有 的 股票 类 别 个 数 ( 即 股票 标识 种 类 数 ) 。 
(3) 实验 步骤 
1) 加 载 数据 pig/data/daily stocks.csv 到 关系 stock， 只 使 用 前 两 个 字段 ， 命 名 为 exch-ange、symbol， 字 有 段 类 型 默认 。 
2) 将 关系 stock 按 exchange 分 组 ， 得 到 关系 stock_grp。 
3) 统计 每 个 组 exchange 值 ， 及 组 中 symbol 去 重 之 后 的 个 数 ， 生 成 关系 unique_symbols。 
4) 查看 关系 unique_symbols 的 结构 。 
5) 设置 任务 名 称 为 stock_job。 
6) 存储 关系 unique_symbols 到 /pigtest/unique_symbols 目 录 ， 分 隔 符 使 用 “，” 。 


7) 查看 HDFS 上 关系 unique_symbols 的 数据 。 


1) 实验 步骤 3) 要 使 用 谋 套 FOREACH， 能 否 通过 使 用 一 般 的 FOREACH 命 令 完成 ? 


8 否 不 使 用 FOREACH 命 令 来 完成 ? 


D 
H 
E> 
SE 
SB 
3B 
unr 


5.5 本章 小 结 


本 章 通过 对 Pig 的 核心 原理 Pig Latin 的 介绍 ， 使 读者 在 了 解 Pig 的 设计 思想 基础 上 ， 对 其 诸多 Pig Latin 的 基本 命令 ， 如 数据 加 载 、 数 据 存储 、 数 据 转换 等 ， 有 一 个 直观 、 清 晰 的 认识 。 通 过 配置 Pig 运 行 环 境 
以 及 介绍 多 种 Pig 运 行 模式 ， 让 读者 可 以 直接 上 手 ， 用 实践 来 加 深 理 解 Pig 的 数据 处 理 。 本 章 最 后 ， 使 用 两 个 综合 实验 来 帮助 读者 梳理 上 面 介绍 的 种 种 知识 点 ， 帮 助 读者 消化 各 种 命令 ， 使 读者 拥有 使 用 Pig 来 
处 理 自己 的 大 数据 的 能 


第 6 章 ” 大 数据 快速 运算 与 挖掘 一 park 


本 章 首 先 介 绍 Spatk 的 基础 概念 、 安 装配 置 、 核 心 原理 等 ， 对 Spatk 的 生态 圈 进 行 分 析 ， 并 将 其 与 Hadoop 进 行 对 比 ， 让 读者 在 了 解 Hadoop 的 基础 上 ， 对 比 理解 Spatk。 其 次 针对 Spatk 的 Scala 编 程 进行 简单 分 
析 ， 介 绍 常用 的 Spatk RDD 操 作 。 在 此 基础 上 ， 为 读者 引入 基于 Spatk ALS 算 法 的 电影 推荐 案例 ， 重 点 分 析 如 何 通 过 Scala 来 实现 电影 推荐 功能 。 最 后 ， 在 电影 推荐 案例 中 ， 使 用 JavaEE 的 相关 技术 加 以 重 构 及 实 


现 ， 为 读者 提供 一 个 应 用 Spatk 机 器 学 习 算 法 库 MLlib 实 现 数据 挖掘 的 参考 。 


6.1 _ Spark 概述 
Spark 为 UC Berkeley AMP Lab 所 开源 的 类 Hadoop MapReduce 的 通用 并 行 计 算 框架 ，Spark 基 于 MapReduce 算 法 实现 的 分 布 式 计 算 ， 拥 有 Hadoop MapReduce 所 具有 的 优点 ; 但 不 同 于 
MapReduce，Job 中 间 输 出 结果 可 以 保存 在 内 存 中 ， 从 而 不 再 需要 读 写 HDFS， 因 此 Spark 能 更 好 地 适用 于 数据 挖掘 与 机 器 学 习 等 需要 迭代 的 MapReduce 算 法 。 


Spark 在 其 官网 的 介绍 中 ， 重 点 突出 “ 快 ” 的 特点 ， 若 从 事 大 数据 或 集群 等 相关 工作 ， 需 要 快速 计算 ， 按 Spark 的 说 法 ， 则 无 需 再 学 习 其 他 架构 ，Spark 就 能 很 好 满足 需求 。Spark 如 何 体 
现 “ 快 ” 呢 ?”Spark 的 数据 全 部 在 内 存 中 ， 因 此 数据 都 在 内 存 中 计算 ， 而 不 会 涉及 类 似 于 磁盘 等 低 传 输 速 率 的 硬件 ， 以 此 保证 数据 处 理 快速 而 有 效 。 但 这 也 意味 着 你 需要 很 好 的 硬件 配置 。 


同时 ，spark 提 供 很 多 高 级 API， 如 Java、scala、Python、R、SQL 等 数据 分 析 、 数 据 挖掘 常用 的 高 级 编程 语言 。 这 也 就 意味 着 ， 若 只 接触 过 SQL 或 者 R 等 编程 语言 ， 也 能 利用 Spark 挖 气 大 数据 。 


Spark 包 含 几 个 核心 模块 (当然 这 些 也 是 在 发 展 中 ) ， 如 图 6-1 所 示 。 


Streaming 


Spark Core 


Standalone 


HDFS 


图 6-1 Spatk 核 心 模块 


Spark Core (Spark 核 心 ) ， 提 供 底 层 框架 及 核心 支持 ; SQL， 即 上 文 提 到 的 根据 SQL 使 用 ?park 挖 握 大 数据 的 模块 ， 同 时 Spark SQL 也 提供 了 Hive、HBase、RDBMS (如 Mysql、Oracle、Derby 等 ) 
的 相应 接口 ， 即 在 已 拥有 Hadoop 的 一 整套 家 族 产品 的 情况 下 ， 可 以 直接 使 用 Spark 来 完成 相应 的 操作 ; MLlib， 即 数据 挖掘 算法 库 ， 类 似 于 Hadoop 的 家 族 产品 Mahout， 但 使 用 Mahout (Hadoop 
MapReduce 实 现 数据 挖掘 算法 ) 处 理 一 些 涉及 多 循环 的 数据 挖掘 算法 时 ， 存 在 支持 较 差 的 情况 ， 并 且 在 2014 年 Mahout 宣 布 不 再 开 有 友 MapReduce 程 序 ， 转 而 支持 Spark 开 发 的 程序 ， 因 此 ， 相 比 之 下 
Spark 的 算法 支持 更 优 ; Graphs， 即 图 计算 应 用 ， 多 数 情况 下 的 图 应 用 需 处 理 的 数据 量 相对 庞大 ， 例 如 移动 社交 关系 等 庞杂 的 数据 ， 利 用 图 相关 算法 进行 处 理 和 挖掘 时 ，Spark Graphs 可 以 解决 用 户 编写 相 
关 图 计算 算法 但 在 集群 中 应 用 难度 巨大 的 问题 ; Streaming， 即 流 式 计算 ， 何 为 流 式 计算 呢 ? 例如 ， 一 个 网 站 的 流量 ， 该 流量 是 每 时 每 刻 都 在 发 生 的 ， 若 需 要 了 解 过 去 1 小 时 或 15 分 钟 的 流量 ， 那 么 就 可 以 使 
用 Spark streaming 来 解决 这 个 问题 ， 在 业界 一 般 情况 下 ， 对 于 流 式 处 理 ， 大 多 会 考虑 Storm 流 式 框架 (如 果 读 者 想 要 了 解 Storm， 请 参考 其 官网 http://storm.apache.org/) 。 


随 着 spark 的 迅速 发 展 ，Spark 与 Hadoop 两 者 之 间 的 差异 究竟 如 何 ” 我 们 来 看 看 下 面 的 对 比 。 


HDFS HDFS  HDFS HDFS 
read write read write 
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Input Input 
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read one-time 
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图 6-2 ”Spatk 与 Hadoop 数 据 存储 对 比 


如 图 6-2 所 示 ，sSpark 的 中 间 数 据 放 于 内 存 中 ， 有 更 高 的 迭代 运算 效率 ， 而 Hadoop 每 次 运 代 的 中 间 数 据 存 放 于 HDFSs 中 ， 涉 及 硬盘 的 读 写 ， 了 明显 降低 了 运算 效率 。 因 此 Spark 更 适合 于 迭代 运算 较 多 的 机 
器 学 习 (Machine Learning) 和 数据 模型 (Data Model) 运算 。 另 一 方面 ，Spark 提 供 针对 数据 集 的 操作 类 型 众多 ， 而 Hadoop 只 提供 了 Map 和 Reduce 两 种 操作 。Spark 针 对 数据 集 提供 的 操作 有 map、 
filter、flatmap、sample、groupByKey、reduceByKey、union、join、cogroup、mapValues、sort、partionBy 等 多 种 类 型 ， 统 称 为 Trans-formations， 同 时 提供 count、collect、reduce、 
lookup、save 等 多 种 Actions 操 作 。 


但 是 ， 由 于 RDD (Spark 中 的 数据 集 ) 的 特性 ，Spark 不 适用 于 异步 细 粒 度 更 新 状态 的 应 用 ， 例 如 Web 服 务 的 存储 或 者 增 量 的 Web 爬 虫 和 和 索引。 即 对 于 增 量 修改 的 应 用 模型 ，Spark 并 不 适用 。 


通过 上 面 的 对 比 ， 可 以 发 现 Spark 相 比 Hadoop 更 加 通用 。 至 于 未 来 3 年 或 5 年 内 Spark 是 否 可 以 完全 取代 Hadoop ( 指 的 是 取代 MapReduce， 而 非 Hadoop，Hadoop 包 含 HDFS、YARN、MapReduce 
等 ) ， 笔 者 也 不 敢 贸 然 下 结论 。 


6.2 ”Spark 安装 集群 


6.2.1 3 种 运行 模式 


Spark 的 运行 不 涉及 环境 配置 等 操作 ， 只 需 下 载 Spark 发 行 包 ， 并 解压 到 Hadoop 集 群 即 可 运行 。 首 先 ，Spark 有 3 种 运行 模式 (Local 模 式 这 里 不 做 介绍 ， 若 读者 有 兴趣 ， 可 到 官网 了 解 ) ， 分 别 为 独立 
集群 运行 模式 、YARN 运 行 模式 、Mesos 运 行 模式 。 其 区 别 为 资源 管理 器 的 不 同 ， 资 源 管理 器 运用 于 Spark 的 运行 流程 : Spark 客 户 端 提交 任务 后 ，Spark 驱 动 程序 向 资源 管理 器 申请 资源 (内 存 核心 、 内 
f£) ， 然 后 在 申请 的 资源 下 运行 具体 任务 。 因 此 ， 当 运行 模式 为 YARN 或 Mesos 时 ， 且 已 存在 Hadoop 或 Mesos 集 群 ， 即 可 在 相应 集群 内 直接 运行 Spark， 并 使 用 集群 的 资源 。 


6.2.2 ”动手 实践 : 配置 Spark 独 立 集群 


本 实验 使 用 的 版 本 为 Spark1.6.1 (Spark1.6.1-bin-hadoop2.6.tgz) ， 应 用 Hadoop 的 HDFS， 因 此 需 先 安装 并 部 署 Hadoop 集 群 ， 安 装 及 部 署 方法 参考 第 2 章 相应 内 容 。 


本 实验 部 署 采用 的 拓扑 如 图 6-3 所 示 ， 该 集群 拓扑 包含 了 Hadoop、HBase、Zookeeper 以 及 Spark 集 群 (独立 集群 模式 ) 。 


master 


slave1 slave2 


192.168.0.131 192.168.0.132 
DataNode/ DataNode/ 
NodeManager NodeManager 
HRegionServer/ HRegionServer/ 
Zookeeper Zookeeper 
worker worker 


图 6-3 Spark #4 354p 


具体 实验 步骤 如 下 。 


1) 进入 Spark 官 网 下 载 Spark1.6.1-bin-hadoop2.6.tgz 安 装 包 ， 并 解压 到 master 和 集群 的 /usr/local 目 录 ; 


2) 进入 /usr/local/spark-1.6.1-bin-hadoop2.6/conf 目 录 ， 进 行 配置 ; 


3) 配置 slaves 文 件 ， 拷 贝 slaves.template 文 件 到 slaves 文 件 下 ， 其 文件 内 容 如 下 所 示 : 


192.168.0.130 
NameNode/JobHistoryServer 
ResourceManager/ 
SecodaryNameNode/ 
Hmaster/ 
Master/ 
HistoryServer 


slave3 


192.168.0.133 
DataNode/ 
NodeManager 
HRegionServer/ 
Zookeeper 
worker 


slavel 
slave2 
slave3 


"ww "S slaves 的 配置 因 集 群 而 异 ， 且 仅 配 置 子 节点 所 在 的 机 器 名 。 


4) 配置 spark-env.sh 文 件 ， 拷 贝 spark-env.sh.template 文 件 到 spark-env.sh 文 件 下 ， 配 置 其 内 容 如 下 所 示 : 


export JAVA HOME-/usr/local/jdk1.7.0 67 


(eO 
w JAVA HOMET]j BG. E] Rk m op, DES ARR SERRSJDKA- XL t4 BC e 


5) 配置 spark-default.conf 文 件 ， 拷 贝 spark-default.conf.template 文 件 到 spark-default.conf 文 件 下 ， 其 配置 内 容 如 代码 清单 6-1 所 示 。 


代码 清单 6-1 spark-default.sh 配 置 文件 


spark.master spark://master:7077 
Spark.eventLog.enabled true 
spark.eventLog.dir hdfs://master:8020/sparkLog 
各 参数 解释 如 下 。 


: spatk.master: spatk 主 节点 所 在 机 器 及 端口 ，spatk: // 默 认 写 法 。 


“ spatk.eventLog.enabled: 是 否 打 开 任 务 日 志 功 能 ， 默 认 是 false， 也 就 是 不 打开 。 


: spatk.eventLog.dir: 任务 日 志 上 默认 存放 人 位置， 配置 为 一 个 HDFS 路 径 即 可 ， 注 意 需 要 提前 创建 该 目录 。 


6) 在 master 主 节点 把 配置 好 的 Spark 目 录 拷 贝 到 slave1、slave2、slave3 中 。 


scp -r /usr/local/spark-1.6.1-bin-hadoop2.6 slavel:/usr/local/spark-1.6.1-bin-hadoop2.6 
scp -r /usr/local/spark-1.6.1-bin-hadoop2.6 slave2:/usr/local/spark-1.6.1-bin-hadoop2.6 
scp -r /usr/local/spark-1.6.1-bin-hadoop2.6 slave3:/usr/local/spark-1.6.1-bin-hadoop2.6 


7) 启动 HDFS,， 创建 sparkLog 目 录 。 


#hdfs dfs -mkdir /sparkLog 


8) 启动 Spark 独 立 集群 (现在 /etc/profile 中 配置 SPARK_ HOME 的 环境 变量 ) 。 


cd $SPARK HOME 
sbin/start-all.sh 
sbin/start-history-server.sh 


若 需 关闭 Spark 独 立 集群 ， 可 以 使 用 下 面 的 命令 : 


sbin/stop-all.sh 
sbin/stop-history-server.sh 


Spark 独 立 集群 启动 后 ， 访 问 主 节点 : http;//master: 8080， 即 可 看 到 如 图 6-4 所 示 监 控 界 面 。 


Spark ,, Spark Master at spark-//hnode51 tipdm.com:7077 


URL: spark://node51.tipám.com:7077 


REST URL: spark //node51.tipdm.com:6066 (cluster mode) 


Alive Workers: 3 

Cores in use: 9 Total. 0 Used 

Memory in use: 10.5 GB Total, 0.0 B Used 
Applications: 0 Running, 0 Completed 
Drivers: 0 Running, 0 Completed 

Status: ALIVE 


Workers 


Worker Id 

worker-20150923190915-192.168.0 57-33248 
worker-20150926160802-192.168.0.55-53480 
worker-20150926160802-192.168.0.56-38981 


Running Applications 


Application ID 


Completed Applications 


Application ID 


Address 

| 192.168.0.57:33248 
| 192.168.0.55:53480 
| 192.168.0.56:38981 


Memory per Node Submitted Time 


Memory per Node Submitted Time 


图 6-4 Spark è 5 5 1 42 Jf 


Cores 
3 (0 Used) 
3 (0 Used) 


3 (0 Used) 


i 
Q: 该 截图 的 机 器 名 并 非 mastef， 读 者 如 果 自 己 配置 使 用 的 是 mastet 作 为 Spatk 主 节点 机 器 名 ， 那 么 看 到 的 就 是 mastetf， 下 面 的 Histoty Servet 同 样 的 道理 。 


访问 http://master: 18080， 即 可 看 到 如 图 6-5 所 示 界 面 。 从 图 中 可 以 看 到 有 4 个 历史 任务 完成 。 


Soak 1c1 History Server 


Event log directory: file-Amp'spark-events 
Showing 1-4 of 4 


App ID App Name Started Completed 


Duration 


Memory 

3.5 GB (0.0 B Used) 
3.5 GB (0.0 B Used) 
3.5 GB (0.0 B Used) 


Duration 


Duration 


Last Updated 


app-20160322173406-000? SpalkSQL..132.168.0.51 2016/03/22 17.33.44 2016/09/22 17.39.32 


26 min 


2016/03/22 17.33.32 


app-201609221 72039-0001 SparkSQL ::192.168.0.51 


2016/09/22 17:20:32 | 2016/09/22 17:33:30 


13 min 


2016/09/22 17:33:30 


app-20160922164753-0002 Spark shell 2016/09/22 16:47-47 | 2016/09/22 16:50:07 


23min 


| 2016/09/22 16:50:07 


app-20160922163645-0001 Spark shell 2016/09/22 16:36:39 | 2016/09/22 16:44:06 


Show incomplete applications 


6.2.3 ”3 种 运行 模式 实例 


图 6-5 History Setvet 监 控 界 面 


7 5 min 


2016/09/22 15:44:06 


配置 Spark 独 立 集群 后 ， 即 可 尝试 独立 集群 的 运行 模式 。 局 动 运行 模式 ， 使 用 spark-shell 启 动 脚本 ， 该 脚本 启动 一 个 交互 式 的 scala 命 令 界面 ， 可 供用 户 运行 Spark 相 关 命 令 。 


启动 命令 如 下 : 


./bin/spark-shell --master spark://master:7077 --driver-memory 1g --total-executorcores 3 --executor-memory 1g 


启动 后 ， 可 在 终端 看 到 类 似 于 代码 清单 6-2 的 提示 信息 。 


代码 清单 6-2 ”启动 Spark-shell 提 示 信 息 


tarting HTTP Server 


:22:02 INFO server.AbstractConnector: Started SocketConnector80.0.0.0:58949 


fully started service 'HTTP class server' on port 58949. 


16/09/26 16 
16/09/26 16:22 
16/09/26 16:22: 
16/09/26 16:22:01 INFO spark.HttpServer: S 
16/09/26 16:22:02 INFO server.Server: jetty-8.y.z-SNAPSHOT 
16/09/26 16 
16/09/26 16:22:02 INFO util.Utils: Success 
Welcome to 

"ANE // 

NM V SIME. 

/ wd ow /\,////\\ version 1.6.1 
Ly 


Using Scala version 2.10.5 (Java HotSpot(TM) 64-Bit Server VM, Java 1.7.0 67) 
Type in expressions to have them evaluated. 


[root(master spark-1.6.1-bin-hadoop2.3]4 bin/spark-shell --master spark://master: 7077 --driver-memory 1g --total-executor-cores 3 --executor-memory 1g 
16:22:01 INFO spark.SecurityManager: Changing view acls to: root 

:01 INFO spark.SecurityManager: Changing modify acls to: root 
01 INFO spark.SecurityManager: SecurityManager: authentication disabled; ui acls disabled; users with view permissions: Set(root); users with modify permissions: 


Type :help for more information. 
16/09/26 16:22:06 INFO spark.SparkContext: Running Spark version 1.6.1 
16/09/26 16:22:06 WARN spark.SparkConf: 


-— 


16/09/26 16:22:25 INFO repl.SparkILoop: Created sql context (with Hive support)http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/16328/OEBE 
SQL context available as sqlContext. 


scala» 


一 般 情 况 下 看 到 “scala>” 提示 符 ， 即 说 明 Spark 交 互 式 命令 窗口 启动 成 功 。 
同时 ， 启 动 后 ， 在 Spark 监 控 界 面 可 以 看 到 对 应 的 应 用 ， 如 图 6-6 所 示 。 


Running Applications 


Application ID Name Cores Memory per Node Submitted Time User State Duration 


app-20160926162213-0001 (kill) | Spark shell 3 1024.0 MB 2016/09/26 16:22:13 root RUNNING 1.3 min 


图 6-6 ”运行 中 的 Spark shell 应 用 
下 面 介绍 YARN 运 行 模式 。 在 YARN 运 行 模式 中 ， 不 需要 启动 Spark 独 立 集群 ， 即 此 时 http://master: 8080 是 无 法 访问 的 。 启 动 YARN 模 式 的 Spark shell 命 令 如 代码 清单 6-3 所 示 。 


代码 清单 6-3 YARN 模 式 启 动 Spark shell 


./bin/spark-shell --master yarn-client 


启动 后 ， 在 终端 可 以 看 到 如 代码 清单 6-4 所 示 的 提示 信息 。 


代码 清单 6-4 ”启动 Spark-shell 提 信息 (YARN client 模 式 ) 


[root(master spark-1.6.1-bin-hadoop2.6]4$ bin/spark-shell --master yarn-client 
http: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/16328/0EBPS/Text/... 
Welcome to 


I 


"ZEN. A 
YA M LN GE 
|. 4 IN kd A ANN version 1.6.1 

// 
Using Scala version 2.10.5 (Java HotSpot (TM) 64-Bit Server VM, Java 1.7.0 67) 
Type in expressions to have them evaluated. 
Type :help for more information. 
16/09/27 10:13:28 INFO spark.SparkContext: Running Spark version 1.6.1 
http: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/16328/0EBPS/Text/... 
16/09/27 10:13:44 INFO util.Utils: Successfully started service 'SparkUI' on port 4040. 
16/09/27 10:13: INFO ui.SparkUI: Started SparkUI at http://192.168.0.130:4040 
16/09/27 10:13: INFO client.RMProxy: Connecting to ResourceManager at master/ 192.168.0.130:8032 
16/09/27 10:13:45 INFO yarn.Client: Requesting a new application from cluster with 3 NodeManagers 
16/09/27 10:13:45 INFO yarn.Client: Verifying our application has not requested more than the maximum memory capability of the cluster (8192 MB per container) 
16/09/27 10:13:45 INFO yarn.Client: Will allocate AM container, with 896 MB memory including 384 MB overhead 
16/09/27 10:13:45 INFO yarn.Client: Setting up container launch context for our AM 
16/09/27 10:13:45 INFO yarn.Client: Setting up the launch environment for our AM container 
16/09/27 10:13:45 INFO yarn.Client: Preparing resources for our AM container 
16/09/27 10:13:46 INFO yarn.Client: Uploading resource file:/usr/local/spark-1.6.1-bin-hadoop2.6/lib/spark-assembly-1.6.1-hadoop2.6.0.jar -> hdfs://tipdmCluster/user/root/.spar 
16/09/27 10:13:51 INFO yarn.Client: Uploading resource file:/tmp/spark-fal9fb72-45b9-49bd-b558-75929a86eb90/ spark conf 2649341484184319326.zip -> hdfs://tipdmCluster/user/rc 
16/09/27 10:13:51 INFO spark.SecurityManager: Changing view acls to: root 
16/09/27 10:13:51 INFO spark.SecurityManager: Changing modify acls to: root 
16/09/27 10:13:51 INFO spark.SecurityManager: SecurityManager: authentication disabled; ui acls disabled; users with view permissions: Set(root); users with modify permissions: 
16/09/27 10:13:51 INFO yarn.Client: Submitting application 1 to ResourceManager 
16/09/27 10:13:52 INFO impl.YarnClientImpl: Submitted application applic-ation 1474941872476 0001 
16/09/27 10:13:53 INFO yarn.Client: Application report for application 1474941872476 0001 (state: ACCEPTED) 
16/09/27 10:13:53 INFO yarn.Client: 


client token: N/A 
diagnostics: N/A 
ApplicationMaster host: N/A 
ApplicationMaster RPC port: 0 
queue: default 
start time: 1474942431310 
final status: UNDEFINED 


tracking URL: node53:8088/proxy/application 1474941872476 0001/ 

user: root E i 
16/09/27 10:13:54 INFO yarn.Client: Application report for applica-tion 1474941872476 0001 (state: ACCEPTED) 
16/09/27 10:13:55 INFO yarn.Client: Application report for applica-tion 1474941872476 0001 (state: ACCEPTED) 
16/09/27 10:13:56 INFO yarn.Client: Application report for applica-tion 1474941872476 0001 (state: ACCEPTED) 
16/09/27 10:13:57 INFO yarn.Client: Application report for applica-tion 1474941872476 0001 (state: ACCEPTED) 
16/09/27 10:13:58 INFO yarn.Client: Application report for applica-tion 1474941872476 0001 (state: ACCEPTED) 
16/09/27 10:13:58 INFO cluster.YarnSchedulerBackend$YarnSchedulerEndpoint: ApplicationMaster registered as NettyRpcEndpointRef (null) 
16/09/27 10:13:58 INFO cluster.YarnClientSchedulerBackend: Add WebUI Filter. org.apache.hadoop.yarn.server.webproxy.amfilter.AmIpFilter, Map(PROXY HOST -» node53, PROXY URI BAS 
16/09/27 10:13:58 INFO ui.JettyUtils: Adding filter: org.apache.hadoop.yarn.server.webproxy.amfilter.AmIpFilter i o 
16/09/27 10:13:59 INFO yarn.Client: Application report for applica-tion 1474941872476 0001 (state: RUNNING) 
16/09/27 10:13:59 INFO yarn.Client: 


client token: N/A 
diagnostics: N/A 
ApplicationMaster host: 192.168.0.56 
ApplicationMaster RPC port: 0 

queue: default 
start time: 1474942431310 

final status: UNDEFINED 

tracking URL: node53:8088/proxy/application 1474941872476 0001/ 
user: root 
http: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/16328/0EBPS/Text/... 
SQL context available as sqlContext. 


I 


scala» 


从 如 上 提示 信息 中 可 以 看 到 ，Spark 向 YARN 申 请 资源 ， 并 把 代码 提交 到 YARN 中 。 同 时 ， 在 YARN 任 务 监控 查看 (注意 ， 不 是 在 Spark 的 任务 监控 查看 ) ， 其 界面 如 图 6-7 所 示 。 


Show 20 YY entries 


Application 3 : StartTime FinishTinme A FinalStatus 2 N gs : 
- € 
RA Queue ; State i S1 Tracklng UI 


ID 


application 1474941872476 4 SPARK default 2 N/À RUNNING | UNDEFINED ApplicationMaster 


Showing 1 to l of 1 entries 


图 6-7 运行 中 的 Spatk shell 应 用 (YARN clienti A) 
Mesos 运 行 模式 与 YARN 模 式 类 似 ， 这 里 不 再 叙述 。 


Spark 运 行 模式 又 分 为 集群 模式 (cluster) 和 客户 端 模 式 (client) ， 对 于 YARN 模 式 ， 如 代码 清单 6-3、 代 码 清单 6-4、 图 6-7 所 示 。 那 么 ， 集 群 模式 与 客户 端 模 式 有 什么 区 别 呢 ?” 从 代码 清单 6-5 可 以 看 


出 ， 若 直接 启动 集群 模式 会 出 现 报 错 ， 这 说 明 启 动 不 了 集群 模式 。 
代码 清单 6-5 ”启动 Spark-shell 提 信息 (YARN cluster 模 式 ) 


[root(master spark-1.6.1-bin-hadoop2.6]f$ bin/spark-shell --master yarn-cluster 
Error: Cluster deploy mode is not applicable to Spark shells. 
Run with --help for usage help or --verbose for debug output 


根据 前 文 描 述 ， 在 Spark 的 运行 流程 中 存在 Spark 驱 动 程序 向 相关 的 资源 管理 器 申请 资源 的 过 程 ， 然 而 这 个 描述 并 不 确切 。 在 YARN clustertzxt F, Spark Driver 运 行 在 AM (Application Master) 
中 ， 它 负责 向 YARN 申 请 资源 ， 并 监督 作业 的 运行 状况 。 用 户 提交 了 作业 后 ， 即 可 关闭 Client， 但 作业 会 继续 在 YARN 上 运行 ， 因 此 YARN cluster 模 式 不 适合 运行 交互 类 型 的 作业 。 然 而 在 YARN client 模 式 
下 ，AM 仅 仅 向 YARN 请 求 Executor，client 会 和 请 求 得 到 的 Container 通 信 来 调度 Container 工 作 ， 因 此 不 能 关闭 client。 


总 结 起 来 就 是 集群 模式 的 Spark Driver 运 行 在 AM 中 ， 而 客户 端 模式 的 Spark Driver 运 行 在 客户 端 。 所 以 ，YARN cluster 适 用 于 生产 环境 ， 而 YARN client 适 用 于 交互 和 调试 ， 即 希望 快速 地 看 到 应 用 的 
输出 信息 。 其 核心 区 别 在 图 6-8、 图 6-9 中 可 以 看 出 。 


6.2.4 动手 实践 : Spark Streaming 实 时 日 志 统 计 


本 实验 的 流程 为 : 从 一 台 服 务 器 的 8888 端 口上 收 到 一 个 以 换行 符 为 分 隔 的 多 行文 本 ， 要 从 中 筛选 出 包含 单词 error 的 单词 的 记录 ， 并 把 它 打 印 出 来 。 实 验 中 ， 会 用 到 Linux 的 nc 软件 ， 所 以 需要 确保 服务 
器 已 经 安装 好 该 软件 (注意: 该 实验 使 用 的 是 Spark 独 立 集群 模式 ) 。 


客户 应 用 程序 YARN Container YARN 
"iiis ResourceManager 


启动 Spark Executor 
V 执行 应 用 


YARN Container 
Spark App Master 
Spark Driver 


| 资源 申请 YARN 


KesourceManager 


局 动 Spark Executor 


YARN NodeManaķer 
Spark Executor |Spark Executor — —» Spark Task 


图 6-9 YARN 集 群 模式 


EE 
Fu 


1) 启动 Spark 独 立 集群 模式 后 ， 接 着 启动 Spark shell, 


[root(master spark-1.6.1-bin-hadoop2.6]# bin/spark-shell --driver-memory 1g --total-executor-cores 3 --executor-memory 1g 


2) 在 Spark shell 交 互 式 终端 中 输入 代码 清单 6-6 代 码 。 


代码 清单 6-6 Spark Stream 示 例 代码 


import org. 
import org. 
import org. 
import org. 
import org. 


apache.spark. 


treaming.StreamingContext 


apache.spark. 


treaming.StreamingContext. 


apache.spark. 


treaming.Duration 


S 
S — 
apache.spark.streaming.dstream.DStream 
S 
S 


apache.spark. 


// 设置 日 志 等 级 
sc.setLogLevel ("WARN") 


treaming.Seconds 


// 从 SparkConf 创 建 StreamingContext 并 指定 10 秒 钟 的 批 处 理 大 小 
val ssc = new StreamingContext (sc, Seconds (10)) 


// 启动 连接 到 slavel 8888 端 口上 ， 使 用 收 到 的 数据 创建 DStream 


val lines = ssc.socketTex! 


// 从 DStream 中 往 选 出 包含 字符 串 "error" 的 行 


val errorLines = lines .: 


// 打印 出 有 "error" 的 行 


errorLines.print () 


// 启动 流 计算 环境 StreamingContext 


ssc.start() 


A Au 
- en ^ 

j| = 
: A 


3) 在 另外 一 台 服 务 器 中 (slave1) 查看 nc 软件 版 本 ， 如 代码 清单 6-7 所 示 。 各 个 版 


暂时 可 以 不 用 了 解 程序 代码 。 


代码 清单 6-7” Linux nc 软件 版 本 


tStream("slavel", 8888) 


Filter( .contains ("error")) 


影响 不 大 ， 本 书 使 用 的 版 本 是 1.84。 


[root@slavel ~]# yum 


Loaded plugins: 


list nc 


Loading mirror speeds 


fastestmirror 


from cached hostf 


* base: centos.ustc.edu.cn 


* extras: 


mirrors.sina.cn 


ile 


* rpmforge: mirrors.tuna.tsinghua.edu.cn 


* updates: mirrors.sina.cn 


base 
extras 
rpmforge 
updates 


[nstalled Packages 


nc.x86 64 1.84-24.e16 Gbase 


| 3.4 kB 00:00 
| 3.4 kB 00:00 
| 1.9 kB 00:00 
| 3.4 kB 00:00 


4) 在 slave1 上 启动 监听 。 


[root(slavel ~]# nc -1 8888 


5) 在 slave1 中 输出 相应 日 志 (因为 是 模式 实际 环境 ， 因 此 时 间 间 隔 设置 为 10s， 同 时 日 志 内 容 直 接手 动 输入 即 可 ) ， 其 输出 信息 如 图 6-10 所 示 。 图 中 左边 是 交互 式 Spark shell 输 出 信息 ， 右 边 是 在 
slave1 上 启动 的 nc 程序 。 


6.2.5 ”动手 实践 : Spark 开 发 环境 一 Intellij DEANE 


在 开发 Spark 程 序 中 ， 一 般 建 议 读者 使 用 Intellij IDEA， 在 笔者 的 使 用 过 程 中 ， 对 比 其 他 开发 1DE 软 件 ， 如 Eclipse 安 装 Scala 插 件 等 ，Intellij DEARA. Intellij IDEA 官 网 提供 两 个 版 本 ， 分 别 为 旗舰 版 
(Ultimate Edition, idealU) 和 社区 版 (Community Edition, idealC) ， 旗 舰 版 可 以 免费 试用 30 天 ， 社 区 版 本 免费 使 用 ， 但 是 功能 上 比 旗舰 版 有 所 缩减 。 本 实验 使 用 的 版 本 为 idealC-14.1.5 版 本 ， 同 时 
需要 使 用 Scala， 这 里 安装 Scala 对 应 的 版 本 为 2.10.5。 在 安装 Intellij IDEA 的 Scala 插 件 时 ， 可 以 选择 两 种 模式 ， 一 种 为 在 线 安 装 ， 一 种 为 离线 安装 。 若 选择 离线 安装 ， 则 需要 下 载 对 应 的 版 本 ， 版 本 不 对 应 会 
出 现 相 应 错误 ， 和 笔者 环境 相 匹 配 的 插件 版 本 为 scala-intellij-bin-1.5.4。 


scala» ssc.start() 


scala- 


Time: 


1474956310000 ms 


— — M Pá— 


1474956320000 ms 


图 6-10 Spark Stream 实 时 日 志 实 例 


[root8slavel ~]# nc -1 8888 
thisi s error 

what is that 

this line should not print 
[root8üslavel ~] 


1) 打开 Intellij IDEA， 可 以 看 到 如 图 6-11 所 示 界 面 。 


Version 14 1.5 


Xf Create New Project 
p Import Project 
CJ Open 


$ Check out from Version Control = 


Register Í Get Help = 


内 Configure . 


图 6-11 Intellij IDEA 打 开 界 面 
2) 选择 Configure 一 Plugins， 可 以 看 到 如 图 6-12 所 示 的 提示 界面 。 


此 时 ， 选 择 两 种 安装 模式 之 一 ， 以 便 安装 Scala 插 件 。 搜 索 Scala， 在 右边 点 击 Install 即 可 (此 为 在 线 安装 ) ; 选择 “lnstall plugin from diskhttp://www.hzcourse.com/resource/readBook? 
path=/openresources/teach ebook/uncompressed/16328/OEBPS/Text/...” 为 离线 安装 。 在 弹出 的 提示 框 中 选择 scala-inte 咱 -bin-1.5.4.zip 文 件 。 


3) 配置 Spark WordCount 程 序 ， 在 欢迎 界面 选择 Create New Project， 并 在 弹出 框 中 选择 Scala 一 Scala 一 Next， 如 图 6-13 所 示 。 

4) 在 弹出 界面 中 输入 工程 名 ， 选 择 JDK、Scala SDK 版 本 ， 如 图 6-14 所 示 。 

5) 单 击 Finish 按 钮 后 ， 其 工程 结构 如 图 6-15 所 示 。 

6) 配置 Spark 开 发 包 ， 按 快捷 键 Ctrl+ ALT + Shift + S， 打 开工 程 结构 配置 界面 ， 并 选择 Libraries， 接 着 单 击 + 按钮 添加 开发 包 ， 如 图 6-16 所 示 。 


在 弹出 的 界面 中 选择 spark-assembley 包 ， 如 图 6-17 所 示 。 


引 plugins 


EL See [si glia. 


| Sortby name ”| Android Support 


Android Support 


Version: 10.1.1.0 


Ant Support Supports the development of Open Handset Alliance Android 


Application Servers View applications with IntelliJ IDEA. 


ASP 

Aspect) Support 
Bytecode Viewer 
CFML Support 
ClearCase Integration 
Cloud Foundry integration 
CloudBees integration 
CoffeeScript 
Copyright 

Coverage 

CSS Support 
Cucumber for Groovy 


Cucumber for Java 


口 
O 
[) 
O 
[) 


Salta P as He » .* 


Check or uncheck a plugin to enable or disable it. 


isl pio iom dis, 


图 6-12 Intellij IDEA 插 件 搜索 界面 


3| New Project X 


iau 


(2) Clouds = SBT 

Ø Spring ZE Activator 
P3 Java FX 

Sf IntelliJ Platform Plugin 


f$ Spring Initializr 
m Maven 
(€ Gradle 


G Groovy 
(P) Griffon 
C^ Grails 


Q Static Web 


[3 Empty Project 


Simple module with attached Scala SDK 


LE 国清 cance! | | Hep | 


图 6-13 ”新 建 Scala 工 程 
| New Project 


Project name: | wordcount 


Project location: | DAprogramVXcourseraMscalaWwordcount 


Project SDK: [a 1.8 (java version "1.8.0 51") 


Scala SDK: La scala-sdk-2.10.5 | Create... | 


* More Settings 


| Previous | ELS | Cancel | | Help | 


图 6-14 Scala 工程 参数 配置 


wordcount (D:\program\coursera\scala\wordcount) 
e O idea 
B src 


Jİ wordcount.iml 


Y Wh External Libraries 
P C =< 1.8 > (CAProgram FilesJavaydk1.8.0 51) 
> Cø scala-sdk-2.10.5 


图 6-15  wordcount-I- 4 25 44 
SJ] Project Structure 


中 中 »"- O 


| New Project Library | 
Project Settings 一 一 一 一 一 一 一 一 一 一 一 
Project 
Modules 
Libraries 
Facets Select a library to view or edit its details 
Artifacts min 
Platform Settings 
SDKs 
Global Libraries 


Problems 


图 6-16 ”添加 Spatk 开 发 包 
J| Project Structure 
e» +-0 


l— — JoOÀ 1 PIA | spark-assembly-1.6.1-hadoop2.6.0 
Il spark-assembly-1.6.1-hadoop2.6.0 


Project Settings 
Project thh- 
Modules v in Classes 
Te 目 CAUsers\fansy\software\tar.gz\spark\spark-assembly-1.6.1-hadoop2.6.0jar 
Facets 
Artifacts 

Platform Settings 


图 6-17 添加 spatk-assembly 包 
7) 在 src 下 新 建 demo.WordCount， 指 定 Scala Class 为 Object， 其 内 容 如 代码 清单 6-8 所 示 。 


代码 清单 6-8 。 ”Scala 单词 计数 程序 


package demo 
import org.apache.spark. {SparkConf 
大 大 


* 单词 计数 程序 

* Created on 2016/8/3. 

id 

object WordCount { 

def main (args: Array[String])( 

// 输 入 文件 既 可 以 是 本 地 Winqows 系 统 文件 ， 也 可 以 是 其 他 来 源 文件 ， 例 如 HDEFS 
val input- "D:/a.txt" // 假 设 D 盘 中 有 a.txt 文 件 
// 以 林地 线程 方式 运行 ， uris 个 数 


, 9SparkContext] 


/ /lll . setMaster ("1ocal[2 ET 
// 下 面 给 出 的 是 单线 程 执行 
val conf = new SparkConf () .setAppName ("SparkWordCount") .setMaster ("local") 


val sc = new SparkContext (conf) 


//wordcount 操 作 ， 计 算 文 件 中 包含 *Spark" 单 词 的 全数 


l count=sc.textFile (input) .filter (line => line.contains ("Spark")).count() 
7/ 打 印 结 HA 
printin ("count="+count) 
sc.stop() 


it 
Qi 暂时 可 以 不 用 了 解 程序 代码 。 


8) 在 D 盘 新 建 a.txt 文 件 ， 输 入 一 段 包 含 “spark ”单词 的 文字 ; 直接 单 击 运行 ， 即 可 看 到 如 图 6-18 所 示 的 结果 。 


Run WordCount 


= Terminal SBT Console 4 Run 3 & TODO 


Compilation completed successfully in 3s 145ms (a minute ago) 


图 6-18 Intellij IDEA 运 行 Spatk 程 序 结果 


6.3 Spark 架构 与 核心 原理 
本 节 主 要 介绍 Spark 的 基础 架构 以 及 核心 原理 ， 包 括 在 Spark 中 提交 任务 ， 以 及 任务 如 何 并 行 化 、RDD 核 心 原 理 等 。 


6.3.1 ”Spark 架 构 


本 节 所 述 Spark 架 构 是 针对 Spark 独 立 集群 的 模式 ， 若 非 Spark 独 立 集群 模式 ， 下 文 进行 相应 说 明 。 首 先 了 解 Spark 的 架构 ， 其 架构 图 如 图 6-19 所 示 。 


Ae P ERE Cluster 

Manager 
new SparkContext Driver | (app mas ter) 1 
f = sc.textFile(".") |n d id "A f 


v SparkContext 


f.filter(..) 
.count() 


图 6-19  SparkZ& 4F ZR 44 A 


Spark worker 
Executor 
Task Task 


Spark worker 
Executor 
Task Task 


在 6.2 节 中 ， 我 们 了 解 到 Spark 独 立 集群 启动 后 ， 会 存在 2 个 组 件 (不 包含 History-Server) ， 分 别 为 Master 和 多 个 Worker。 根 据 图 6-19， 可 简单 理解 Driver 以 及 ClusterManager 是 在 Master 启 动 的 ， 


而 每 个 Spark Worker 对 应 Worker 进 程 。 在 图 6-19 中 可 看 到 较 多 的 Spark 组 件 。 下 面 针 对 这 些 组 件 做 相应 说 明 。 
客户 端 程序 : 用 户 提 交 作 业 的 客户 端 。 
: Driver: 运行 Application 的 main 函 数 并 创建 SpatkContext。 


* SpatkContext: 应 用 上 下 文 ， 控 制 应 用 生命 周期 。 


: Cluster Manager: 资源 管理 器 。 

. Spark Worker: 集群 中 任何 可 以 运行 Application 代 码 的 节点 ， 运 行 一 个 或 多 个 Executor 进 程 。 

: Executor: 运行 在 Worker 的 Task 执 行 器 ，Executor 启 动 线 程 池 运行 Task， 并 且 负 责 将 数据 存在 内 存 或 磁盘 上 ， 每 个 Application 都 会 申请 各 自 的 Executor 来 处 理 任务 。 

Task: 具体 任务 。 

spark 任 务 提交 流程 描述 如 下 : 

1) 客户 端 提交 程序 到 Driver，Driver 程 序 启动 SparkContext; 

2) SparkContext 连 接 集群 资源 管理 器 (Spark 自 己 的 资源 管理 器 或 YARN 资 源 管理 器 或 Mesos 资 源 管理 器 ) ， 并 针对 当前 应 用 申请 资源 ; 

3) 当 获 取 到 资源 后 (这些 资 源 是 以 Executor 打 包 封装 的 ， 可 以 理解 为 资源 的 “集装箱 ”) ， 就 会 把 用 户 的 实际 代码 (如 Jar 文 件 、Python 文 件 等 ) 传输 到 各 个 Executor 上 ; 


4) SparkContext 发 送 启动 命令 到 各 个 Executor 上 。 


在 上 面 的 描述 中 ， 需 要 注意 以 下 几 点 : 
1) 每 个 应 用 会 获取 到 各 自 的 Executors， 并 且 在 整个 应 用 的 生命 周期 内 不 会 被 消除 。 同 时 每 个 Executor 会 启动 多 个 线程 来 执行 Task， 这 样 不 同 的 应 用 之 间 就 不 会 影响 。 当 然 ， 这 也 就 意味 着 不 同 的 应 用 


之 间 的 数据 共享 是 不 能 够 直接 实现 的 (只 能 通过 外 部 数据 源 实现 ) 。 


2) Spark 对 Cluster Manager 并 没有 特殊 要 求 ， 只 需 能 够 实现 从 Cluster Manager 中 获取 并 启动 Executor 进 程 ， 那 么 Spark 便 可 运行 (因此 ， 在 一 个 Hadoop 集 群 中 ,一般 情况 下 都 使 用 Spark on 
YARN 的 模式 ) 。 


3) Driver 程 序 需 在 其 生命 周期 中 监听 并 接收 到 Executor 连 接 ， 即 Driver 地 址 需 被 启动 Executor 的 各 个 子 节 点 “知晓 ”。 
4) 一 般 情况 下 ，Driver 程 序 需 与 所 有 的 worker 节 点 在 同一 个 本 地 网 络 中 ， 否 则 建议 使 用 RPC 来 进行 连接 。 
6.3.2 RDD 原 理 


RDD (Resilient Distributed Dataset， 弹 性 分 布 式 数据 集 ) 为 Spark 中 最 重要 的 概念 。 可 简单 将 RDD 理 解 成 一 个 提供 多 种 操作 接口 的 数据 集合 ， 与 一 般 数据 集 不 同 的 是 ， 其 实际 数据 分 布 存储 于 一 批 机 
器 中 (内 存 或 磁盘 ) 。RDD 可 与 Hadoop HDFs 中 的 文件 块 对 比 。 如 图 6-20 所 示 ， 定 义 了 一 个 名 为 “myRDD” 的 RDD 数 据 集 ， 该 数据 集 被 切 分 成 多 个 分 区 (Partition， 可 以 对 比 HDFSs 的 Block 的 概念 来 理 
f) ， 每 个 分 区 可 实际 存储 在 不 同 的 机 器 上 ， 同 时 也 可 存储 在 内 存 (Memory) 或 硬盘 上 (HDFS) ， 当 然 也 可 存储 在 其 他 分 布 式 文件 系统 中 。 


Partition 


Partition 


Partition 


Partition 


图 6-20 RDD 示 例 


一 个 RDD 可 被 认为 是 Spark 在 执行 分 布 式 计算 时 的 一 批 具 有 相同 来 源 、 相 同 结 构 、 相 同 用 途 的 数据 集 ， 也 可 理解 为 一 个 分 布 式 数 组 ， 而 数组 中 每 个 记录 为 用 户 自 定义 的 任何 数据 结构 。 一 般 来 说 ，RDD 
具有 以 下 特点 : 


` 它 是 集群 节点 上 的 不 可 改变 的 、 已 分 区 的 集合 对 象 ( 要 特别 注意 ， 是 不 可 改变 的 ) 。 
- 其 通过 并 行 转 换 的 方式 来 创建 如 map、fltet、join 等 〈( 即 RDD 一 经 创建 就 不 可 修改 ) o 


失败 自动 重建 《这 里 的 重建 不 是 从 最 开始 的 点 来 重建 的 ， 可 以 从 上 一 步 开 始 重建 ， 可 结合 6.3.3 节 中 相关 概念 理解 ) 。 


. 可 以 控制 存储 级 别 (内 存 、 磁 盘 等 ) 来 进行 重用 。 

.RDD 只 能 从 持久 存储 或 通过 Transformations 操 作 产 生 ， 它 相 比 于 分 布 式 共享 内 存 (DSM) 可 更 高 效 实现 容错 ， 对 于 丢失 部 分 数据 分 区 只 需要 根据 它 的 lineage 即 可 重新 计算 ， 而 不 需 做 特定 的 checkpoint。 
RDD 的 数据 分 区 特性 ， 可 以 通过 数据 的 本 地 性 来 提高 性 能 ， 这 与 Hadoop Map-Reduce 相 同 。 

- RDD 都 为 可 序列 化 的 ， 在 内 存 不 足 时 可 自动 降级 为 磁盘 存储 ， 把 RDD 存 储 于 磁盘 上 ， 此 时 性 能 虽 有 较 大 的 降低 ， 但 不 会 差 于 MapReduce。 


RDD 有 两 大 类 操作 ， 分 别 为 转换 (Transformations) 和 操作 (Actions) 。 转 换 主要 指 从 原始 数据 集 加 载 到 RDD 中 以 及 把 一 个 RDD 转 换 为 另外 一 个 RDD， 而 操作 主要 指 把 RDD 人 存储 到 硬盘 或 触发 转换 
执行 。 此 时 需 注 意 ， 转 换 如 map、filter、groupby、join 等 ，Spark 并 不 会 真正 执行 ， 而 在 执行 一 些 操作 命令 时 ， 如 count、collect、saveAsTextFile 等 ， 则 会 触发 前 面 一 系列 的 转换 执行 。 


举例 说 明 ， 如 图 6-21 所 示 。 
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i X —— Stage 2 . | : 
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图 6-21 Spark RDD 转 换 和 操作 实例 


在 图 6-21 中 ， 首 先 经 过 转换 textFile 将 数据 从 HDFS 加 载 到 RDDA 以 及 RDDC 中 ， 此 时 RDDA 或 RDDC 中 并 没有 存在 数据 。 再 进行 转换 flatMap、map、reduceByKey 等 ， 分 别 把 RDDA 转 换 为 RDDB 并 转 

到 RDDF 以 及 把 RDDC 转 到 RDDE 等 ， 此 时 这 些 转换 并 没有 真正 执行 。 读 者 可 理解 为 先 做 计划 ， 但 并 没有 具体 执行 ， 在 执行 操作 saveAsSequenceFile 时 ， 才 开始 真正 触发 并 执行 任务 。 读 者 可 以 想象 这 样 一 个 
场景 : 例如 要 创建 公司 ， 首 先 编写 商业 计划 书 ， 并 且 该 计划 书 需 进 行 反复 修改 ， 最 终 确定 后 才 真 正 执行 计划 书 内 的 相应 步 又， 从 而 创建 公司 。 该 场景 与 Spark 的 RDD 操 作 类 似 ， 同 时 还 需 注意 的 是 ， 创 建 公 

司 这 个 例子 中 的 “反复 修改 ”也 对 应 着 RDD 中 的 某 些 操作 ， 这 些 操作 主要 指 执行 计划 的 优化 等 。 


同时 ， 对 于 上 文 提 到 的 RDD 提 供 众多 操作 ， 极 大 地 方便 用 户 构 建 分 布 式 应 用 程序 ， 而 不 需 自 行 开 发 相关 消 数 ， 只 需要 关注 业务 逻辑 即 可 。 这 也 是 为 什么 一 般 情况 下 用 户 可 以 快速 构建 属于 自己 的 Spark 
分 布 式 程 序 的 原因 之 一 (其 中 Scala 也 做 了 较 大 贡献 ) 。 


6.3.3 ”深入 理解 Spark 核 心 原理 


为 了 更 加 深入 地 理解 Spark 的 核心 原理 ， 有 必要 先 了 解 如 下 几 个 概念 。 

1. 宽 依赖 与 窄 依赖 

图 6-22 说 明 的 是 宽 依 赖 (Wide Dependencies) ERA (Narrow Dependencies) 的 关系 。 

在 图 6-22 中 ， 图 中 的 每 个 小 方 格 代 表 一 个 分 区 ， 而 一 个 大 方 格 (比如 包含 3 个 或 2 个 小 方 格 ) 代表 一 个 RDD， 坚 线 左边 为 窒 依 赖 ， 右 边 为 宽 依 束 (。 


在 了 解 宽窄 依赖 的 区 别 前 ， 先 要 了 解 父 KDD (Parent RDD) 和 子 RDD (Child RDD) 。 在 图 6-22 中 ，“map，filter” 左 边 为 父 RDD， 右 边 为 子 DD。“union” 左边 两 个 DD 同 时 为 其 右边 子 RDD 的 
父 RDD。 根 据 父 RDD、 子 RDD 相 应 概念 ， 从 图 6-22 中 可 推出 宽 依 赖 与 窒 依 赖 的 区 别 : 


: ZIRIA (Narrow Dependency) 指 的 是 子 RDD (Child RDD) 只 依赖 于 父 RDD 中 的 一 个 固定 数量 的 分 区 。 
- ERI (Wide Dependency) 指 的 是 子 RDD 的 每 一 个 分 区 都 依赖 于 父 RDD 的 所 有 分 区 。 

2. 阶 段 

图 6-23 表 述 了 阶段 (Stage) 的 概念 。 


在 图 6-23 中 ， 可 以 看 到 有 3 个 阶段 (Stage) ， 分 别 为 Stage1 (RDDA) 、Stage2 (RDDC、RDDD、RDDE、RDDF) , Stage3 (所 有 RDD) 。Spark 将 每 一 个 Job 分 为 多 个 不 同 的 Stage,， 而 Stage 之 
间 的 依赖 关系 则 形成 了 有 向 无 环 图 (DAG) 。 对 于 窒 依 赖 ，Spark 会 尽量 多 地 将 RDD 转 换 并 放 在 同一 个 阶段 中 ;而 对 于 宽 依 赖 ， 由 于 宽 依 赖 通常 意味 着 Shuffle 操 作 ， 因 此 spark 会 将 Shuffle 操 作 定 义 为 阶段 
的 边界 。 这 样 的 设计 考虑 了 后 期 并 行 ， 试 想 ， 每 个 stage 中 各 RDD 的 分 区 是 否 都 可 并 行 运 行 呢 ? 
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图 6-23 RDD Stage 


根据 上 述 相应 概念 ， 对 Spark 的 核心 解释 如 下 。 


如 图 6-24 所 示 ， 用 户 代 码 (Slrdd1.joinhttp://www.hzcourse.com/resource/readBook?path- /openresources/teach ebook/uncompressed/16328/OEBPS/Text/...) 转换 为 有 向 无 环 图 后 ， 交 给 


DAGSchedu-ler， 由 其 将 RDD 的 有 向 无 环 图 分 割 成 各 个 Stage 的 有 向 无 环 图 ， 并 形成 TaskSet， 再 提交 到 TaskScheduler 中 ， 由 TaskScheduler 把 任务 (Task) 提交 给 每 个 Worker 上 的 Executor 执 行 具 体 的 


Task。 在 Taskscheduler 中 ， 并 不 知道 每 个 Stage 的 人 存在， 只 对 Task 运 行 。 
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图 6-24 Spark RDD 任 务 流程 


举例 说 明 ， 如 代码 清单 6-9 所 示 为 针对 HDFS 上 的 数据 文件 /useVroot/name_ phone, /user/root/name spend 中 信息 整合 的 程序 。 


代码 清单 6-9_ Spark 整合 用 户 信息 程序 


sc.textFile("/user/root/name phone") .map(s-»(s.split(","))).map(s-»(s(0),s(1).toI 


Int)).join(sc.textFile ("/user/root/name spend").map(s-»(s.split(","))).map(s-»(s(0),s(1).toI 


Int) 


mE 
Os Scala 代 码 由 于 具有 函数 性 ， 因 此 所 有 代码 可 写 在 同一 行 中 。 


spark 根 据 RDD 不 同 的 依赖 关系 将 其 切 分 为 不 同 的 stage， 每 个 stage 包含 一 系列 国 数 ， 以 流水 线 方式 执行 。 如 图 6-25 所 示 ， 首 先 数据 从 HDFS (/user/root/name phone, 
/user/root/name spend) 输入 Spark 后 ， 形 成 的 RDD53、RDD57， 分 别 经 过 两 次 map 操 作 ， 转 换 为 RDD55、RDD59; 并 在 RDD59 经 过 reduceByKey 转 换 为 RDD60 后 ， 与 RDD55 进 行 join 操作 转换 为 


RDD63; 最 终 调用 SaveAsTextFile 存 储 到 HDFS 中 。 


图 6-26 反 映 了 各 Stage 间 的 关系 ， 并 可 明显 地 看 到 Stage10 和 Stage11 的 输出 合并 后 作为 stage12 的 输入 (当然 Stage11 还 经 过 了 一 个 reduceByKey 的 转换 ) 。 
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图 6-25 ”用户 信息 整合 各 个 Stage RDD 流 程 
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Ej6-26 ”用 户 信息 整合 各 个 Stage 关 系 


若 不 需要 从 浏览 器 中 查看 各 个 stage 的 关系 以 及 Stage 内 部 的 RDD 转 换 操作 ， 也 可 以 直接 在 命令 行 终端 使 用 oDebugstring 羡 数 查 看 各 Stage 的 直接 关系 ， 如 图 6-27 所 示 。 


scala» data.toDebugString 
res9: String - 

(5) MapPartitionsRDD[75] at join at «console»:21 [] 

| MapPartitionsRDD[74] at join at «console»:21 [] 

| CoGroupedRDD[73] at join at «console»:21 [] 

+ 一 (5) MapPartitionsRDD[67] at map at €Xconsole»:21 [] 
| MapPartitionsRDD[66] at map at «€console»:21 [] 
| MapPartitionsRDD[65] at textFile at «console»:21 [] 
| /user/root/name phone HadoopRDD[64] at textFile at «console»:21 


S3huffledRDD[72] at reduceByRey at -console»:21 [] 
(5) MapPartitionsRDD[71] at map at «Xconsole»:21 [] 

| MapPartitionsRDD[70] at map at <console>:21 [] 

| MapPartitionsRDD[69] at textFile at «console»:21 [] 

| /user/root/name spend HadoopRDD[68] at textFile at «console»:21 


| 

| 

| 
[] 

| 

中 一 


[] 


图 6-27 ”终端 中 查看 Spark 执 行 计 划 


6.4 _ Spark 编程 技巧 
6.4.1 Scala 基础 


在 基于 Java 语 言 的 基础 知识 上 ， 相 信 读 者 可 以 很 快 学 会 Scala 的 基础 语法 。 对 于 Spark 的 基本 编程 ， 只 需 了 解 并 且 能 够 编写 基本 的 Scala 代 码 即 可 。 当 然 ， 若 需要 编写 高 层次 的 Spark 代 码 ， 建 议 读 者 能 
好 好 研习 Scala 语 法 。 


Scala 是 一 种 纯 面向 对 象 语言 ， 其 中 每 个 值 都 是 一 个 对 象 。 对 象 的 数据 类 型 以 及 行为 由 类 和 特质 描述 。 类 抽象 机 制 的 扩展 有 两 种 途径 : 一 种 途径 为 子 类 继承 ， 另 一 种 途径 为 灵活 的 混入 机 制 。 这 两 种 途径 
能 避免 多 重 继承 的 种 种 问题 。 


Scala 也 是 一 种 函数 式 语 言 ， 其 函数 也 可 当成 值 进行 使 用 。Scala 提 供 轻 量 级 语法 用 以 定义 匿名 函数 ， 支 持 高 阶 函 数 ， 人 允许 秦 套 多 层 图 数 ， 并 支持 柯 里 化 (不 了 解 柯 里 化 的 读者 ， 请 咨询 查阅 相关 资 
料 ) 。Scala 的 case class 及 其 内 置 的 模式 匹配 相当 于 函数 式 编 程 语 言 中 常用 的 代数 类 型 。 更 进一步 ， 程 序 员 可 利用 Scala 的 模式 匹配 ， 编 写 类 似 正 则 表达 式 的 代码 ， 以 处 理 XML 数 气 。 


本 章 假设 读者 已 经 自行 学 习 过 Scala， 下 文 内 容 需 要 有 Scala 基 础 。 若 没有 Scala 基 础 ， 建 议 读者 在 学 习 前 ， 先 自行 学 习 Scala。 


6.4.2 Spark 基础 编程 


本 节 介 绍 Spark 常 用 RDD 的 各 种 操作 ， 主 要 包括 常用 的 Transformation 和 Actions。 在 此 基础 上 ， 读 者 能 够 自行 编写 简单 Spark 应 用 ， 如 单词 计数 等 。 此 时 需 注 意 ， 针 对 一 些 高 级 特性 ， 如 RDD 缓 存 、 广 
播 变量 及 累加 器 ， 本 节 并 没有 相应 介绍 ， 读 者 若 对 这 方面 感 兴趣 ， 可 以 在 Spark 官 网 上 查阅 相关 资料 。 


首先 ， 启 动 Spark shell 交 互 式 命令 终端 : 


cd $SPARK HOME 
bin/spark-shell 


参考 6.2 节 相关 内 容 ， 成 功 启 动 Spark shell 交 互 式 程 序 。 在 交互 式 程序 中 输入 sql-Context 或 sc， 若 看 到 类 似 图 6-28 显 示 的 结果 ， 即 说 明成 功 启动 交互 式 命令 终端 。 


RD > ES 


scala» sqlContext 


res0: org.apache.spark.sql.SQLContext = org.apache.spark.sql.hive.HiveContext855f4411a 


scala? sc 


resi: org.apache.spark.SparkContext = org.apache.spark.SparkContext68a54ad3a 
图 6-28 ”输入 sc/sqlContext 变 量 的 结果 


在 交互 式 命 令 终端 中 ， 运 行 Actions 时 经 常会 出 现 很 多 日 志 ， 一 般 情 况 下 ， 若 用 户 对 这 些 日 志 不 关心 ， 则 可 把 该 日 志 级 别 设置 调 高 ， 只 有 在 出 错 的 时 候 才 打印 日 志 。Spark shell 中 设置 日 志 级 别 有 两 种 方 
式 ， 如 图 6-29 所 示 展 示 的 是 方式 1。 


scala» org.apache.log4j.Logger.getLogger("org").setLevel(org.apache.log4j.Level.WARN) 


scala» org.apache.log4j.Logger.getLogger("akka").setLevel(org.apache.log4j.Level.WARN) 


图 6-29 Spark shell 设 置 日 志 级 别 方式 1 


如 图 6-30 所 示 ， 展 示 的 是 方式 2。 


scala» sc.setLogLevel("WARN") 


图 6-30 Spark shell 设 置 日 志 级 别 方式 2 
一 般 情况 下 ， 设 置 日 志 级 别 ， 多 选择 第 2 种 方式 ， 因 为 输入 比较 少 ， 便 于 记忆 。 
下 面 按照 数据 加 载 、 转 换 、 操 作 、 数 据 写 入 的 顺序 进行 相应 介绍 ， 并 且 数 据 加 载 可 归 为 转换 、 数 据 写 入 可 归 为 操作 。 
1. 数 据 加 载 


数据 加 载 一 般 指 如 何 把 非 RDD 加 载 为 RDD， 因 为 Spark 只 能 对 RDD 进 行 操 作 ， 因 此 该 步骤 必 不 可 少 。 一 般 情 况 下 ， 对 于 Scala 的 数据 结构 ， 可 直接 通过 parallelize 函 数 把 其 加 载 为 Spark RDD， 如 图 6-31 
所 示 。 


scala» val rddl = sc.parallelize(List("a","b","c","g")) 


rddl: org.apache.spark.rdd.RDD[String] = ParallelCollectionRDD[1] 
at parallelize at «console^:27 


scala rddl.collect 
res2: Array[String] = Array(a, b, c, d) 


图 6-31 Spark RDD parallelize E 4 7 4] 


若 存在 一 个 分 布 式 文件 系统 (如 HDFS) ， 其 数据 需要 使 用 Spark 进 行 处 理 ， 则 可 通过 函数 textFile、sequenceFile、objectFile 或 wholeTextFiles 直 接 加 载 数据 文件 到 Spark RDD 中 ， 如 图 6-32 所 示 。 


scala» val rdd2 = sc.textFile("/user/root/linear.txt") 


rdd2: org.apache.spark.rdd.RDD[String] = /user/root/linear.txt Map 
PartitionsRDD[7] at textFile at «console»:27 


scala rdd2.count 
resb: Long = 67 


scala> val rdd3 = sc.objectFile("/user/root/scala/test01") 
rdd3: org.apache.spark.rdd.RDD[Nothing] = MapPartitionsRDD[S] at o 
bjectFile at €Xconsole»:27 


scala rdd3.count 
res7: Long = 4 


图 6-32 ”Spatk 加 载 HDFS 数 据 到 RDD 
2. 常 用 转换 
本 节 介 绍 的 转换 操作 包括 : map、flatMap、filter、distinct、mapValues、union、reduce-ByKey、join。 
(1) 映射 map 转 换 


转换 map 可 将 原来 RDD 中 的 每 个 数据 项 通过 map 中 的 用 户 自 定义 函数 {转换 成 一 个 新 的 RDD， 并 且 用 户 自 定义 遂 数 既 可 以 生成 单 值 也 可 以 生成 键 值 对 。 如 图 6-33 所 示 ， 使 用 map 遂 数 对 rdd1 中 每 个 元 素 
进行 倍数 操作 ， 得 到 新 的 mapRDD， 对 rdd2 进 行 元 组 操作 ， 生 成 新 的 pairRDD。 其 在 Spark shell 交 互 式 命 令 行 中 执行 结果 如 图 6-34、 图 6-35 所 示 。 


rdd1 i ek | mapRDD 
{1,2,3,4} SC DNE á {1,4,9,16} 


rdd2 uu. 
("Hello","World", "p x => (x, 1) Di Hello" EE World sy 


iam! Wo er "mast > "I", Dm ,1); aer 


图 6-33 RDD map 转 换 


scala» val inputRDD = sc.parallelize(List(1,2,3,4)) 
inputRDD: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[10 
] at parallelize at <console>:27 


scala» val mapRDD = inputRDD.map((x:Int)-»x*x) 


mapRDD: org.apache.spark.rdd.RDD[Int] = MapPartitionsRDD[11] at ma 
p at «console»:29 


scala?» mapRDD.collect 


restd: Array[Int| = Array(l, 4, 9, 


图 6-34 Spark shell 中 RDD map 转 换 


scala» val data = sc.parallelize(List("Hello","World","I","My","I")) 
data: org.apache.spark.rdd.RDD[String] = ParallelCollectionRDD[26] at p 
arallelize at «console»:21 


scala» data .map (x=> (x,1)) 
res25: org.apache.spark.rdd.RDD[(String, Int)] = MapPartitionsRDD[27] a 


t map at «-console»:24 


scala^ res25.collect 
res26: Array[(String, Int)] - Array((Hello,1), (World,1), (I,1), (My,1) 
: (I;1)) 


图 6-35 Spark shell 中 RDD map 转 换 成 键 值 对 
而 flatMap 转 换 ， 类 似 于 map， 但 flatMap 将 每 个 元 素 先 通过 函数 进行 操作 ， 后 执行 扁平 操作 (即将 数组 、 列 表 拆 分 成 单个 值 或 将 字符 串 拆 分 成 单个 字符 ) ， 如 图 6-36 所 示 。 
(2) 过 滤 filter 转 换 


转换 fiter， 类 似 于 map 函 数 ， 但 其 功能 是 对 元 素 进行 过 滤 ， 根 据 用 户 提供 的 自 定义 函数 对 每 个 元 素 加 以 应 用 ， 并 将 返回 值 为 true 的 元 素 保 留 在 新 的 RDD 中 ， 否 则 进行 过 滤 。 图 6-37 中 显示 的 为 过 滤 掉 
rdd1 中 元 素 小 于 或 等 于 2 的 操作 。 


scala» sc.parallelize(List("Hello World","I am a Student")).flatMa 
p(x => (x*1) ).collect 
resl6: Array[Char] = Arraày(H, e, 1, 1l, à | ! E 

ra m, pa; ; B, t, u, d, e, n, t, 1) 


scala» sc.parallelize(List("Hello World","I am a Student")).map(x 
=> (x*l) ).collect 


scala> resi6.size 
res19: Int = 27 


acala» resi7.size 
res20: Int 


图 6-36 Spark RDD flatMap/map 对 比 


rddl 
{1,2,3,4} 


filterRDD 
13.4 
scala» val rddl = sc.parallelize(L1ist(1,2,3,4)) 


rddl: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[13] at 
parallelize at «console»:27 


LL—— x —» X»2——»- 


scala» val filterRDD - rddi.filter((x:Int) -» x»2) 
filterRDD: org.apache.spark.rdd.RDD[Int] = MapPartitionsRDD[14] at 
filter at «console»:29 


scala» filterRDD.collect 
res9: Array[Int] - Array(3, 4) 


E 6-37 Spark RDD filter 3 
(3) 去 重 distinct 转 换 


在 Spark 中 ， 有 时 需要 针对 RDD 中 重复 的 元 素 进 行 去 重 操作 ， 即 只 保留 重复 元 素 中 的 一 个 元 素 ， 这 时 就 可 以 使 用 distinct 操 作 (注意 ， 去 重 后 的 RDD 顺 序 是 随机 的 ) ， 其 在 Spark shell 中 的 示例 如 图 6-38 


所 示 。 


scala» val data = sc.parallelize(List(1,2,3,3)) 
data: org.apache.spark.rdd.RDD[Int] 三 ParallelCollectionRDD[18] at para 
llelize at «Xconsole»:21 


scala> data.collect 
res20: Array[Int] = Array(1l, 


scala» data.distinct.collect 
res21: Array[Int] = Array(2, 


图 6-38 Spark RDD distinct 转 换 


(4) 映射 值 napValues 转 换 


在 Spark 中 ， 不 仅 有 针对 单个 值 的 RDD 转 换 函 数 ， 还 有 针对 键 值 对 (Key, Value) 类 型 的 数据 进行 转换 的 函数 ， 如 本 例 的 mapValues， 针 对 键 值 对 中 的 值 (Value) 进行 map 操 作 ， 而 不 对 键 (Key) 
进行 处 理 ， 如 图 6-39 所 示 。 其 将 键 值 对 RDD (如 (panda, 0) ) 通过 mapValues 转 换 为 新 的 键 值 对 RDD (如 (panda, (0, 1) ) ) ， 但 新 键 值 对 的 值 同样 也 是 一 个 键 值 对 (二 元 组 ) 。 


图 6-39 Spark RDD mapValues #44% 


请 读者 思考 : 如 下 代码 执行 后 ， 显 示 的 结果 会 是 什么 ? 


Scala» sc.parallelize(List("first","second")).map(x => (x,1)).mapValues (v -»(v,2)).collect 


(5) 合并 相同 键 的 值 reduceByKey 转 换 

如 图 6-40 所 示 为 转换 reduceByKey 示 意图 ， 该 函数 可 将 具有 相同 键 的 值 进行 整合 ， 此 时 ， 在 reduceByKey 中 传输 的 函数 需要 有 两 个 参数 ， 同 时 需要 注意 ， 该 函数 其 返回 值 也 需 有 两 个 参数 ， 并 且 其 类 型 
和 输入 的 参数 类 型 应 保持 一 致 。 如 图 6-41 所 示 即 是 对 这 种 用 法 的 说 明 对 比 。 第 1 次 把 两 个 参数 的 和 转换 为 Double 类 型 然后 当成 返回 值 ， 会 报 类 型 不 匹配 的 错误 ， 出 现 错 误 提 示 "required: Int”， 这 说 明 ， 
输入 类 型 是 Int， 输 出 类 型 也 必须 是 Int。 第 2 次 把 参数 的 和 直接 当成 返回 值 (其 类 型 为 Int) ， 程 序 可 以 直接 运行 。 


[map Values 


reduceByK ey 


图 6-40 Spark RDD reduceByKey £A x A 


scala» val rddl = sc.parallelize(List(("Hello",1), ("World",2), ("Hello",2), ("I",2), ("I 


5v3)3] 
rddlil: org.apache.spark.rdd.RDD[(String, Int)] = ParallelCollectionRDD[4] at paralleli 


ze at «-console»:27 


scala» rddl.reduceByKey((yl:Int,y2:Int) => (yl-*y2).toDouble).collect 
«console»:30: error: type mismatch; 
found : Double 


required: Int 
rddl.reduceByKey((yl:Int,y2:Int) => (yl+y2) .toDouble) .collect 


^ 


scala» rddl.reduceByKey((yl:Int,y2:Int) => yl-*y2).collect 
res5: Array[(String, Int)] = Array((I,5), (World,2), (Hello,3)) 


图 6-41 Spark RDD reduceByKey 用 法 示例 


下 面 给 出 一 个 mapValues 和 reduceByKey 的 综合 示例 ， 如 图 6-42 所 示 。 首 先 ， 原 始 数 据 经 过 parallelize 函 数 转换 为 data RDD; 然后 ， 经 过 mapValues 后 转换 为 rdd1，rdd1 的 value 包 含 原始 数据 的 个 
数 以 及 附带 1 ( 即 键 值 对 或 元 组 ) ; rdd2 经 过 rdd1 的 reduceByKey， 把 具有 相同 Key 的 Value 整 合 ， 整 合 后 的 value 的 操作 是 把 对 应 的 个 数 相 加 ， 所 以 最 后 结果 中 的 value 的 第 1 个 字段 就 是 总 个 数 ， 而 第 2 个 字 
段 则 是 原始 数据 的 行 数 。 


scala» val data 三 sc.parallelize(List(("panda",0), ("pink",3), ("pirate", 
3), ("panda",1), ("pink",4))) 

data: org.apache.spark.rdd.RDD[(String, Int)] 三 ParallelCollectionRDD[3 
2] at parallelize at «console»:21 


scala> val rddl = data.mapValues(y--»(y,1)) 
rddl1: org.apache.spark.rdd.RDD[(String, (Int, Int))] = MapPartitionsRDD 
[33] at mapValues at <console>:23 


scala> rddl.collect 
res3l: Array[(String, (Int, Int))] = Array ( (panda, (0,1)), (pink, (3,1)), 
(pirate, (3,1)), (panda,(1,1)), (pink, (4,1))) 


scala» val rddz = rddl.reduceByRey((yl,y2)-7»(yl. l+y2. l,yl. 2*y2. 2)) 
rdd2: org.apache.spark.rdd.RDD[(String, (Int, Int))] = ShuffledRDD[34] 
at reduceByKey at «console»:25 


scala» rdd2.collect 
res32: Array[(String, (Int, Int))] = Array((panda,(1,2)), (pink, (7,2)), 
(pirate, (3,1))) 


E]6-42. Spark RDD mapValues/reduceByKey 综 合 示 例 
(6) 合并 相同 键 的 值 combineByKey 转 换 
spark 中 合并 相同 键 值 的 转换 函数 reduceByKey， 其 返回 值 类 型 要 和 参数 值 类 型 保持 一 致 。 当 参数 值 与 返回 值 类 型 不 一 致 时 ， 则 可 使 用 转换 combineByKey。 


scala» rddl.collect 
res7: Array[(String, Int)] - Array((Hello,1), (World,2), (Hello,2), (1,2), (1,3)) 


scala» rddl.combineByKey((y:Int)-»y.toDouble, (c:Double, y:Int)-»c-*y, (cl:Double,c2:Doub 
le)-» cl*c2).collect 
res8: Array[(String, Double)] = Array((1,5.0), (World,2.0), (Hello,3.0)) 


图 6-43 Spark RDD combineByKey 转 换 示 例 用 法 
combineByKey 用 法 示例 如 图 6-43 所 示 。combineByKey 函 数 需 输入 3 个 函数 (全 部 参数 共 6 个 ， 前 3 个 参数 为 国 数 ， 后 3 个 为 非 国 数 ， 一 般 情 况 下 提供 前 3 个 函数 参数 即 可 ) 。 该 3 个 函数 解释 如 下 : 
* (y: Int) =>y.toDouble: 指 将 单个 值 元 素 转 换 为 最 后 的 值 元 素 ， 如 将 原始 的 值 元 素 Int， 转 换 为 合并 后 的 值 元 素 Double (该 值 为 人 为 设 定 ， 可 根据 具体 需要 更 改 ) 。 


* (c: Double, y: Int) =>c+y: 在 combineByKey 用 法 示例 中 ，Hello 相 同 的 键 值 对 有 2 个 ， 在 处 理 ( "Hello" , 1) 时 ， 已 将 1 转换 为 1.0 (即将 Int 类 型 转 为 Double 类 型 ) ; 此 时 无 需 对 第 2 个 
( “Hello” , 2) 中 的 值 2 进行 转换 ( 即 转换 为 2.0) ， 而 以 该 函数 将 1.0 十 2 进行 转换 得 到 相应 值 即 可 (此 结果 为 3.0，Double 类 型 加 上 Int 类 型 将 自动 转 为 Double 类 型 ) ; 并 且 该 函数 的 输出 类 型 也 需 与 c 保 持 一 
致 ， 在 本 例 中 为 Double 类 型 。 


* (cl: Double, c2: Double) =>c1+c2: 车 存在 多 个 分 区 ， 每 个 分 区 都 对 应 一 个 最 终 计算 得 到 的 Double 类 型 ， 如 何 将 多 个 分 区 的 结果 合并 呢 ? 此 时 则 需 定 义 一 个 合并 函数 ， 与 feduceByKey 中 的 函数 类 


似 ， 因 此 其 输入 类 型 和 输出 类 型 保持 一 致 ， 在 本 例 中 为 Double。 
(7) 合并 union 转 换 


union 函 数 可 将 两 个 RDD 进 行 合并 操作 ， 但 元 素 类 型 需 保持 一 致 。 其 在 Spark shell 中 的 示例 如 图 6-44 所 示 。 


scala» val rddl = sc.parallelize(List(1,2)) 
rddl: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[22] at para 
llelize at €console»:21 


scala» val rdd2 = sc.parallelize(List(1,2,3)) 
rdd2: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[23] at para 
llelize at «console»:21 


scala^ rddl.union(rdd2) 
res22: org.apache.spark.rdd.RDD[Int] = UnionRDD[(24] at union at *consol 
e»:26 


scala» res22.collect 
res23: Array[Int] 三 Array(1, 2, 1, 2, 3) 


scala» val rdd2 = sc.parallelize(List("first")) 
rdd2: org.apache.spark.rdd.RDD[String)] = ParallelCollectionRDD[25] at p 
arallelize at «Xconsole»:21 


scala» rddl.union(rdd2) 
*console»:26: error: type mismatch; 
found 1 Oorg.apache.spark.rdd.RDD[String] 
required: org.apache.spark.rdd.RDD[Int] 
rddi.union(rdd2) 


A 


图 6-44 Spark RDD union 转 换 
(8) 连接 join 转 换 


spark 中 的 join 转换 ， 与 SQL 中 的 join 类 似 。 如 图 6-45 所 示 ，join 转 换 的 具体 操作 为 : 将 两 个 小 表 按 某 个 字段 合并 成 一 个 大 表 。 


图 6-45 Spark RDD join 转换 示意 图 


join 在 Spark shell 中 的 实际 运行 示例 如 图 6-46 所 示 。 此 例 中 ，rdd1 与 rdd2 的 类 型 需 保持 一 致 ， 否 则 ， 将 会 出 现 错误 提示 。 


scala^ val rddl = sc.parallelize(List(("KE1","v1"),("E2","V2"),("E3","YV3 
113) 

rddi: org.apache.spark.rdd.RDD[(String, String)] = ParallelCollectionRD 
D[4] at parallelize at -console-:21 


scala^ val rdd2 = sc.parallelize(List(("K1","wW1"),("E2","W2"))) 
rdd2: org.apache.spark.rdd.RDD[(String, String)] = ParallelCollectionRD 
D[5] at parallelize at -«console^:21 


scala» val rdd3 = rdd1.join(rdd2) 
rdd3: org.apache.spark.rdd.RDD[(String, (String, String))] = MapPartiti 
onsRDD[8] at join at €console»:25 


scala» rdd3.collect 
res4: Array[(String, (String, String))] = Array((K1l,(V1,W1)), (K2, (V2,W 
2))) 


图 6-46 Spark RDD join 转换 示例 
3. 常 用 操作 
常用 的 操作 (Actions) 如 表 6-1 所 示 。 读 者 可 自行 根据 前 文 内 容 结合 表 6-1 中 的 示例 实验 各 函数 用 法 。 
表 6-1 常用 Actions 
eK 数 功 能 不 例 
collect 返回 RDD 中 的 所 有 元 双 ， 注 意 返 回 的 为 Scala 数据 结构 sc.parallelize(List(1.2.3)).collect 


take(num) 返回 RDD 的 前 num 条 记录 ， 即 返回 的 为 Scala 数据 结构 sc.parallelize(List(1.2,3)).take(2) 


count 返回 RDD 中 元 系 的 个 数 sc.parallelize(List(1.2.3)).count 


4. 数 据 固 化 
在 Spark 中 ， 数 据 固 化 一 般 指 将 数据 写 到 分 布 式 文 件 系 统 上 (本 书 中 指 HDFS) ， 该 类 函数 有 分 布 式 saveAsTextFile 和 saveAsObjectFile。 其 中 SaveAsTextFile 将 数据 人 存 为 文本 格式 ， 而 
saveAsObjectFile 则 将 数据 存 为 二 进 制 格 式 (或 称 序列 化 格式 ) 。 通 过 saveAsTextFile 将 RDD 保 存 到 HDFS 中 的 示例 如 图 6-47 所 示 。 对 于 成 功 保 存 的 文件 ， 在 HDFS 上 可 直接 查看 ， 如 图 6-48 所 示 。 


scala» val data = sc.parallelize(List(1,2,3,3)) 
data: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[13] at para 
llelize at «console»:21 


scala data.collect 
res6: Array[Int] = Array(1, 2, 3, 3) 


scala» data.saveAsTextFile("/user/root/data 00") 


图 6-47 Spark RDD saveAsTextFile zs 4/] 


ontents of directory /user/root/data 00 


oto : |[user/root/data 00 


ro to parent directory 


Name (Type Size Replication Block Size [Modification Time 
„success |file|0 B || — [128 Nb — (2016-05-20 04:22 |rw-r—r—- root 
part-00000 file|4 B |! hs 到 (2016-05-20 04:22 [rw-r-—-- |root | 


图 6-48 Spark RDD 写 到 HDFS 文 件 


655 “如 何 学 习 Spark MUlib 


Spark 能 比较 受 欢 迎 的 一 个 原因 是 因为 其 提供 了 大 量 的 机 器 学 习 算 法 库 ， 也 就 是 Spark MLlib， 它 使 得 用 户 可 以 不 用 自己 费心 编写 星 深 的 算法 程序 ， 而 是 直接 调用 算法 库 来 对 自己 的 大 数据 进行 挖 扬 建 
模 ， 非 常 方 便 。 如 表 6-2 所 示 ， 是 Spark MLlib 中 常用 的 机 器 学 习 算法 库 (对 应 Spark1.6.1 版 本 ) 。 


大 类 


分 类 和 回归 
(Classification and 
regression) 


协同 过 渡 


(Collaborative filtering) 


( Clustering ) 


关联 规则 
( Frequent pattern min- 
ing ) 


降 维 
(Dimensionality reduc- 
tion ) 


文 持 回 量 机 

(SVM) 

逻辑 回归 

(Logistic regression ) 


T -EA 
| 


线性 回归 


( Linear regression ) 


朴素 贝 叶 斯 
(Naive Bayes ) 


决 宋 树 


(decision trees ) 


集成 树 


( ensembles of trees) 


保 序 回归 

(Isotonic regressi-on ) 
交替 最 小 二 乘 

(ALS) 


K 均值 聚 类 
( K-means ) 


高 斯 混合 模型 
(Gaussian Mixture 
Model ) 


FERR 
( Power Iteration Clu- 
stering, PIC) 


隐 性 狄 利克 雷 划 分 
( Latent Dirichlet AI- 
location, LDA) 


频 演 模式 增长 
(FP-growth) 


奇异 值 分 解 


( Singular Value Deco- 


mposition, SVD) 


表 6-2 Spark MLlib 常 用 算法 
f o 释 


是 一 种 通过 某 种 非 线 性 映射 ， 将 低 维 的 非 线 性 可 分 转化 为 高 
维 的 线性 可 分 ， 在 高 维 空间 进行 线性 分 析 的 算法 


是 广义 线性 回归 模型 的 特例 ， 利 用 Logistic 函数 将 因 变量 的 
取 值 范围 控制 在 0 和 1 之 间 ， 表 示 取 值 为 1 的 概率 


对 一 个 或 多 个 目 变 量 和 因 变 量 之 间 的 线性 关系 进行 建 模 ， 可 
用 最 小 二 乘法 求解 模型 系数 


Naive Bayes 是 基于 贝 叶 斯 定理 与 特征 条 件 独 立 假设 的 分 类 方 
法 ， 运 用 贝 叶 斯 定理 求解 后 验 概率 ， 将 后 验 概率 最 大 者 对 应 的 
类 别 作为 预测 类 别 。 实 现 简 单 ， 没 有 迭代 ， 在 大 样本 量 下 会 有 
较 好 的 表现 


决策 树 采 用 目 顶 回 下 的 递归 方式 ， 在 内 部 节点 进行 属性 值 的 
比较 ， 并 根据 不 同 的 属性 值 从 该 节点 回 下 分 文 ， 最 终 得 到 的 叶 
万 点 是 学 习 划 分 的 类 


集成 树 有 两 个 主要 算法 : 随机 森林 和 梯度 提升 树 (GBTs), 3X 
两 个 算法 的 基础 模型 部 为 决 朱 树 。 随 机 森林 通过 集成 减少 过 拟 合 
的 可 能 性 ，GBTs 则 通过 多 标 树 减少 仿 置 ， 且 GBTs 不 文 持 多 分 类 


保 序 回归 属于 回归 算法 ， 用 来 拟 合 原 始 数 据 最 佳 的 单调 限 数 。 
可 以 看 作 排 序 限制 下 的 最 小 二 乘 问题 


ALS 特 指使 用 交 符 最 小 二 乘 求解 的 一 个 协同 推荐 算法 ， 旨 在 
找到 两 个 低 维 矩阵 ， 近 似 远 近 用 户 对 项 目的 评分 矩阵 


K 均值 聚 类 又 称 为 快速 聚 类 ， 在 最 小 化 误差 图 数 的 基础 上 将 数 
据 划 分 为 预定 的 类 数 K。 该 算法 原理 简单 并 便于 处 理 大 量 数 据 


高 斯 混合 模型 是 多 个 高 斯 密度 困 数 的 线性 合并 。 该 聚 类 模型 
的 思想 是 : 数据 点 可 以 看 作 从 数 个 高 斯 分 布 中 以 一 定 的 概率 生 
成 出 来 的 


PIC 是 一 种 简单 且 可 扩展 的 图 聚 类 方法 ， 在 大 数据 集 上 运算 
速度 非常 快 。 需 迭代 聚 类 是 在 数据 归 一 化 的 逐 对 相似 矩阵 上 ， 
使 用 截断 的 占 迭 代 ， 在 数据 集中 找到 一 个 超 低 维 艇 入 ， 这 种 饥 
入 恰好 是 很 好 的 聚 类 指标 


LDA 是 一 个 三 层 贝 叶 斯 概率 模型 ， 包 含 词 、 主 题 和 文档 三 层 
结构 。 可 以 有 效 地 从 文本 语料库 中 挖掘 出 潜在 的 主题 ， 每 种 主 
题 归 为 一 类 


FP-growth 算法 是 一 种 内 存 驻 留 的 关联 规则 算法 ， 依 赖 于 频繁 
模式 树 的 数据 结构 。 该 算法 可 以 有 效 挖 气 频 繁 模式 ， 由 于 频繁 
项 集 的 项 集 关 联 信息 都 保留 在 频繁 模式 树 中 ， 无 需 反 复 遍 历数 
据 集 ， 有 效 地 提高 了 效率 


奇异 值 分 解 是 线性 代数 中 一 个 非常 重要 的 矩阵 分 解 方法 ， 利 
用 和 矩阵 的 奇异 值 分 解 来 实现 将 高 维 定 阵 降 维 成 低 维 窍 阵 


(2) 


降 维 主 成 分 分 析 主 成 分 分 解 是 利用 协 方 差 和 矩阵 来 实现 降 维 的 数据 分 析 方 法 。 
( Dimensionality reduc- | ( Principal Compon- | PCA 通过 线性 变换 将 原始 数据 变换 为 一 组 各 维度 线性 无 关 的 表 
tion ) ent Analysis, PCA) | 示 ,， 提取 数据 的 主要 特征 分 量 


俗话 说 ， 授 人 以 鱼 不 如 授 人 以 渔 。 本 节 将 为 读者 提供 一 个 实例 应 用 ， 以 此 展示 如 何 学 习 上 述 算法 。 
6.5.1 ”确定 应 用 


首先 需要 确定 一 个 应 用 ， 例 如 ， 需 对 某 个 航空 公司 的 机 票 价格 进行 预测 ， 一 般 情况 下 会 选择 与 线性 回归 类 似 的 算法 模型 。 若 需要 做 一 个 推荐 系统 ， 则 可 以 选择 协同 过 滤 算法 模型 。 


本 节 以 推荐 系统 建 模 为 例 ， 使 用 MovieLens 数 据 集 ， 该 数据 集 为 开放 的 电影 评分 数据 集 ， 常 用 于 协同 过 渡 推 荐 技术 相关 测试 。 相 关 数 据 集 下 载 地 址 : http://grouplens.org/datasets/movielens/。 此 
次 使 用 的 数据 集 为 ml-1m.zip 数 据 集 ， 其 网 页 显示 如 图 6-49 所 示 。 


Stable benchmark dataset. 1 million ratings from 6000 users on 4000 movies. Released 2/2003. 


« README txt 


e mi-1m zip (size: 6 MB, checksum) 


Permalink: http //g 


图 6-49  MovieLens 1M 数 据 集 


数据 下 载 完成 后 ， 直 接 进 行 数据 解压 ， 可 以 得 到 4 个 文件 ， 如 图 6-50 所 示 。 


n movies.dat 
| | ratings.dat 
| ] README 
|] users.dat 


图 6-50 ”MovieLens 数 据 集 解压 后 文件 


其 中 ，*.dat 为 数据 文件 ， README 为 说 明文 件 。movies.dat 为 电影 信息 数据 ， 其 文件 内 容 的 格式 为 : MovielD: : Title: : Genres， 分 别 代表 电影 的 ID (编号 ) 、 电 影 名 年 份 、 电 影 标签 ， 如 图 6-51 
左边 所 示 。ratings.dat 为 用 户 评分 数据 ， 其 格式 为 : UserlD: : MovielD: : Rating: : Timestamp， 其 中 ，UserlD 表 示 用 户 id， 从 1 ~ 6040; MovielD 表 示 电 影 ID， 从 1: ~ 3952; Rating 表 示 用 户 对 电 
影评 分 ， 为 1 ~ 5 分 制 ; Timestamp 表 示 时 间 戳 ， 其 实际 数据 如 图 6-51 右 边 所 示 。 


1::Toy Story (1995)::Animation|Children's|Comedy 1193::5::978300760 


2::Jumanji (1995)::Adventure|Children's|Fantasy 661::3::978302109 
3::Grumpier Old Men (1995)::Comedy|Romance 


图 6-51 ”movies.dat 和 ratings.dat 数 据 
确定 应 用 和 数据 后 ， 下 一 步 需 确定 使 用 的 模型 。 选 用 Spark MLlib 中 针对 推荐 应 用 的 算法 ， 即 Spark ALS ( 交 蔡 最 小 二 乘法 ) 。 在 应 用 模型 之 前 需 对 该 算法 进行 基本 了 解 ， 这 样 才能 较 好 地 设置 参数 ， 并 
对 模型 进行 调 优 。 这 里 针对 该 算法 进行 简单 介绍 ， 以 便 读者 有 较 直观 的 认识 。 


6.5.2 ”ALS 算 法 直观 描述 


示例 | 数据 集 如 表 6-3 所 示 ， 数 据 集中 共有 5 个 电影 、4 个 用 户 ， 这 4 个 用 户 观 看 过 该 5 个 电影 中 的 部 分 电影 ， 并 给 出 相应 评分 。 例 如 用 户 Tom 对 《釜山 行 》 评 分 为 5 分 ， 对 《潜伏 3》 评 分 为 1 分 ,但 没 观 看 
《招魂 2》， 所 以 没有 显示 评分 , Educ) "P^ 


表 6-3 用 户 电影 数据 集 


假如 电影 都 有 自己 的 标签 ， 比 如 “动作 ” "OMS , JEROSA (比如 电影 影评 人 等 ) 对 每 个 电影 根据 这 两 个 标签 进行 评分 ， 那 么 现在 就 会 有 这 样 的 一 个 数据 ， 如 表 6-4 所 示 。 


表 6-4 ”电影 标签 评分 


USO EB EB 5 釜山 行 


根据 上 述评 分 ， 如 果 我 们 可 以 构造 这 样 的 一 个 列 向 量 9， 满 足下 面 的 公式 : 
0.9 0.l 4 
0.8 0.3 5 
0.8 0.l o| =14 
0.1 0.9 
0.1 0.9 ] 


显然 ， 根 据 上 式 就 可 以 预测 空格 部 分 


] 


其 中 ，9 .9 代表 用 户 Tom 的 特征 值 ， 其 他 用 户 以 此 类 推 。 这 里 可 以 理解 为 使 用 "9 就 完全 可 以 代表 用 户 Tom， 同 理 ，”% “也 可 以 完全 代表 用 户 Fansy。 


V9 B. 若 根据 不 完整 的 用 户 电影 评分 列表 以 及 电影 的 标签 评分 ， 可 在 一 定 的 误差 范围 内 推 莽 出 9 矩阵 。 


为 保证 影评 人 对 这 些 电影 评价 的 一 致 性 ， 本 算法 采用 的 是 随机 电影 标签 评分 (可 理解 为 电影 特征 矩阵 ) ， 并 求 得 2 和 矩阵 (可 理解 为 用 户 特征 矩 阵 ) 。 显 然 ， 这 样 得 到 的 2 和 矩 阵 误差 较 大 ， 于 是 需 根 据 推导 


出 的 2 矩阵， 反 推 回电 影 特 征 矩 阵 。 以 此 反复 循环 ， 则 可 保证 预测 的 电影 评分 与 实际 电影 评分 (用 户 已 经 评价 过 的 电影 评分 ) 的 全 局 均 方 根 误差 在 一 定 阔 值 内 。 此 时 算法 建 模 基本 完成 ， 并 且 得 到 了 算法 模 
型 的 参数 : 电影 特征 矩阵 和 用 户 特征 矩阵。 根据 这 两 个 和 矩阵 就 可 以 针对 用 户 还 没有 评分 过 的 电影 进行 评分 预测 ， 进 而 得 到 可 以 推荐 给 用 户 的 电影 (根据 预测 评分 大 小 取出 评分 Top10 即 可 ) 。 


通过 上 面 的 分 析 ， 相 信 读 者 对 Spark ALS 算 法 ( 交 蔡 最 小 二 乘法 ) 已 经 有 了 一 个 比较 直观 的 认识 。 鉴 于 本 次 使 用 的 数据 已 经 很 规整 ， 无 需 进行 数据 预 处 理 。 那 么 ， 下 文 将 直接 进入 关键 环节 一 初步 编程 


6.5.3 ”编程 实现 


初步 编程 实现 有 两 种 方式 ， 其 一 ， 读 者 可 以 借鉴 上 面 提 到 的 原理 ， 并 查阅 更 多 相关 资料 编写 ALS 算 法 的 实现 ; 其 二 ， 读 者 可 调用 Spark ALs 算 法 ， 设 置 参数 ， 进 行 建 模 。 
在 进入 编程 阶段 前 ， 需 要 做 些 准备 工作 : 

1) 上 传 原始 数据 集 到 HDFS; 

2) 准备 好 Spark shell 开 发 环境 (注意 这 里 直接 使 用 Spark shell 进 行 编程 ， 而 没有 使 用 Intellij IDEA， 在 下 一 节 中 我 们 会 使 用 这 个 工具 ) ; 

3) 提前 了 解 Spark ALS 算 法 的 用 法 。 

在 准备 工作 中 ， 前 两 步 需要 读者 提前 完成 。 下 面 介绍 Spark ALs 算 法 中 的 相关 概念 。 


Spark ALS 算 法 在 org.apache.spark.mllib.reco-mmendation 包 中 ， 该 包 共 有 3 个 类 ， 如 图 6-52 所 示 。 


org.apache.spark.mllib.recommendation 


OGO ALS 
Q MatrixFactorizationModel 
© Rating 


图 6-52 Spark ALS 算 法 包 
针对 每 个 类 的 解释 如 下 。 
` Rating: 是 用 户 、 项 目 和 评分 的 三 元 组 (uset，ptoduct，tating) ; 
: ALS: ALS 提 供 了 求解 带 偏 置 给 阵 分 解 的 交替 最 小 二 乘 算法 。 
- MatrixFactorizationModel: ALS 求 解 矩 阵 返 回 的 结果 类 型 ， 即 算法 返回 的 模型 类 。 
一 般 情 况 下 ， 读 者 可 以 直接 调用 Spark ALS 算 法 的 train 方 法 来 进行 建 模 ， 其 参数 如 代码 清单 6-10 所 示 。 


代码 清单 6-10 Spark ALS train 算 法 API 


def 
train(ratings: RDD[Rating], rank: Int, iterations: Int, lambda: Double): Matrix-FactorizationModel 

Train a matrix factorization model given an RDD of ratings by users for a subset of products. The ratings matrix is approximated as the product of two lower-rank matrices of a 
ratings: RDD of Rating objects with userID, productID, and rating 

rank: number of features to use 
iterations: number of iterations of ALS (recommended: 10-20) 

lambda: regularization parameter? (recommended: 0.01) 


其 中 ，ratings 参 数 就 是 用 户 电影 评分 表 ， 需 要 构造 为 Rating 数 据 结构 ; rank 即 上 文中 摘 述 的 特征 矩阵 的 维度 ; iterations 为 循环 次 数 ; lambda 为 正则 化 系数 ， 用 来 防止 过 拟 合 的 一 个 参数 。 
1. 数 据 加 载 


在 Spark shell 中 ， 读 取 数 据 并 按照 规则 解析 数据 到 RDDI[Rating]。 针 对 movies 的 数据 ， 则 直接 转换 为 map 数 据 结构 ， 方 便 根 据 movie1D 查 找 对 应 的 movie 相 关 信 息 。 为 后 续 进 行 最 优 模 型 筛选 ， 这 里 需 
先 将 原始 数据 分 割 为 训练 集 、 测 试 集 。 可 使 用 时 间 戳 进行 分 割 ， 因 此 在 进行 数据 加 载 时 ， 需 将 时 间 戳 映射 到 0 ~ 9， 方 便 数据 预 处 理 操作 ， 如 代码 清单 6-11 所 示 。 


代码 清单 6-11 Spark ALS 数 据 加 载 


sc.setLogLevel ("WARN") 
import org.apache.spark.mllib.recommendation. 


// 加 载 movies 数据 到 map 


val movies = sc.textFile("/user/root/als/movies.dat").map(line => val fields = line.split("::") ; (fields(0).toInt,fields(1))).collect.toMap 
// 加 载 评分 数据 
l ratings = sc.textFile("/user/root/als/ratings.dat").map(line => val fields = line.split("::");val rating = Rating (fields (0).toInt,fields(1).toInt,fields (2).toDouble);val ti 


Val 
// 输出 统计 信息 


printin (ratings .count) 

Println (ratings.map( . 2.user).distinct.count) 
Println (ratings.map( . 2.product).distinct.count) 
2. 数 据 分 割 


数据 分 割 按照 上 节 中 的 时 间 戳 来 进行 〈 时 间 戳 已 经 过 映射 ) ， 其 中 训练 集 (时 间 戳 <6) 、 测 试 集 (时 间 戳 >=6) 如 代码 清单 6-12 所 示 。 
代码 清单 6-12 Spark ALS 数 据 分 割 


// 分 训练 集 
val training = ratings.filter(x-»x. 1«6).values.cache() 


// 分 测试 集 


val test = ratings.filter(x-»x. 1»-6).values.cache() 
println (训练 集 记 录 数 : “+training.count) 
println ("测试 集 记 录 数 : “+test.count) 


注 
©; FA cache 操 作 可 以 把 当前 数据 集 放 入 内 存 ， 主 要 为 方便 后 续 循环 操作 时 ， 可 直接 从 内 存 中 读 取 对 应 数据 。 


3. 建 立 模型 
设置 rank 值 、iterations 循 环 次 数 、lambda 值 后 ， 即 可 建立 模型 ， 如 代码 清单 6-13 所 示 。 


代码 清单 6-13 ”设置 参数 建立 模型 


val rank - 10 

val lambda -10 // 这 里 设置 为 10 ， 默 认 值 是 0.01 
val iters - 20 
val model = ALS.train(training,rank,iters, lambda) 


Ait 
E 这 里 设置 的 参数 值 根据 算法 调用 的 默认 值 随机 选取 ， 并 将 atmrbda 设 置 为 10， 具 体 原因 下 节 分 析 。 


一 般 情 况 下 ， 建 立 模型 的 运行 时 间 大 约 为 几 十 秒 (这 与 具体 集群 配置 资源 相关 ) ， 运 行 完成 后 则 可 使 用 模型 对 用 户 进 行 电影 推荐 。 同 时 ， 在 进行 电影 推荐 前 ， 添 加 计算 均 方 根 误差 水 数 ， 对 测试 数据 进 
行 误 差分 析 ， 以 验证 模型 效果 。 cnn 单 6-14 所 示 。 


代码 清单 6-14 ”计算 均 方 根 误差 函数 


import org.apache.spark.rdd.RDD 
def computeRMSE (model:MatrixFactorizationModel, data:RDD[Rating]): Double = {val ratingsAndPredictions = data.mapí(case Rating (user,product,rating)-»((user,product),rating)].joi 


在 图 6-53 中 可 以 看 到 ， 此 模型 针对 测试 数据 的 均 方 根 误差 为 3.75466 (根据 初始 化 的 参数 值 不 一 样 ， 该 值 也 会 有 一 定 的 误差 ) 。 当 前 均 方 根 误 差 相对 较 大 ， 因 此 可 推断 出 构建 该 模型 会 产生 一 定 的 误差 
(将 在 6.5.4 节 进行 分 析 ) 。 


scala> computeRMSE (model,test) 


res/!: Double = 3.75466124906267595959] 


图 6-53 ”模型 在 测试 数据 集中 的 均 方 根 误差 


4 .模型 推荐 


在 建立 模型 后 ， 可 对 某 个 用 户 进行 电影 推荐 。 例 如 对 用 户 1 进 行 推荐 ， 首 先 求 得 用 户 1 所 有 评分 过 的 电影 jd， 使 用 该 电影 id 集合 过 滤 所 有 电影 ， 得 到 推荐 候选 电影 。 然 后 使 用 模型 针对 用 户 1 以 及 候选 
进行 评分 预测 ， 得 到 候选 推荐 电影 的 评分 列表 。 再 根据 该 评分 列表 对 候选 列表 排序 ， 最 后 取出 其 Top10， 推 荐 给 用 户 1 即 可 。 在 实际 应 用 中 ， 还 需 多 做 一 步 MES E E D (如 
电影 名 字 ) ， 此 时 可 用 到 最 开始 数据 加 载 一 节 中 movies 变 量 。 具 体 推荐 过 程 代 码 如 代码 清单 6-15 所 示 。 


代码 清单 6-15 Spark ALS 模 型 推荐 


i k 用 户 1 评价 过 的 电影 1q 集 合 


l user1RatedMovieIds = ratings.filter( . 2.user--1).map( . 2.product).collect.toSeq 

/ pee 

val cands - sc. allelize (movies.keys lter(!userlRatedMovieIds.contains( )).toSeq) 
// 使 用 模 型 来 对 候选 电影 集合 进行 评分 预测 ， eR. 取出 评分 最 高 的 TOP 10 
val recommendations = model.predict(cands.map((1, ))).collect.sortBy(- .rating) .take (10) 

// 格式 化 输出 电影 

var i -1 
recommendations.foreach(rec => println("$2d".format(i)t": "4movies(rec.product)-*", predictRating: "-4rec.rating);i-t-1] 


对 用 户 1 的 推荐 结果 ， 如 图 6-54 所 示 。 


Lured (1947), predictRating: 1.619992002836993E-38 

Smashing Time (1967), predictRating: 1.6095377361244536E-38 

Gate of Heavenly Peace, The (1995), predictRating: 1.5396212040906596E-38 

World of Apu, The (Apur Sansar) (1959), predictRating: 1.4475922134084807E-38 
Lamerica (1994), predictRating: 1.4421222360520016E-38 

Skipped Parts (2000), predictRating: 1.4266138904059736E-38 

Running Free (2000), predictRating: 1.4081268887484563E-38 

Time of the Gypsies (Dom za vesanje) (1989), predictRating: 1.4066218569907873E-38 
24 7: Twenty Four Seven (1997), predictRating: 1.4046983567117702E-38 

Journey of August King, The (1995), predictRating: 1.3980452307103955E-38 
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图 6-54 用 户 1 推 荐 电影 结果 


修改 参数 ， 针 对 用 户 2 进 行 推荐 ， 其 结果 如 图 6-55 所 示 。 


Lured (1947), predictRating: 1.394995774529307E-38 

Smashing Time (1967), predictRating: 1.385993472132592E-38 

Gate of Heavenly Peace, The (1995), predictRating: 1.3257874547040607E-38 

World of Apu, The (Apur Sansar) (1959), predictRating: 1.2465401171178197E-38 
Lamerica (1994), predictRating: 1.2418298498537217E-38 

Skipped Parts (2000), predictRating: 1.2284754156291953E-38 

Running Free (2000), predictRating: 1.2125560227242992rE-38 

Time of the Gypsies (Dom za vesanje) (19889), predictRating: 1.211260020683051E-38 
24 7: Twenty Four Seven (1997), predictRating: 1.2053603670061051E-38 

Journey of August King, The (1995), predictRating: 1.2038745784093164E-38 
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图 6-55 ”用 户 2 推荐 电影 结果 


对 比 这 两 个 推荐 结果 ， 可 发 现 其 推荐 的 电影 是 相同 的 ， 仪 预测 评分 不 同 ， 且 预测 评分 趋 近 于 零 。 通 过 修改 推荐 用 户 参 数 ， 针 对 其 他 用 户 进行 电影 推荐 ， 发 现 所 有 的 用 户 的 推荐 结果 基本 一 致 ， 仅 预测 评 
分 有 差异 。 那 么 ， 这 是 否 说 明 该 模型 不 可 取 ” 答 案 为 否 ， 下 文 将 阐述 遇 到 此 类 问题 的 解决 方法 。 


6.5.4 问题 解决 及 模型 调 优 


上 节 中 介绍 了 Spark ALS 算 法 的 调用 实现 ， 并 发 现 模型 效果 较 差 。 本 节 将 介绍 如 何 判别 模型 是 否 存在 问题 ， 并 如 何 解决 该 问题 。 


判断 模型 存在 问题 的 依据 如 下 : 对 比 不 同 用 户 的 推荐 结果 ， 若 基本 一 致 ， 使 用 测试 数据 集 进行 均 方 根 误差 计算 ， 若 均 方 根 误差 较 大 ; 随机 查看 用 户 特 征 和 矩阵 和 项 目 特征 矩阵 ， 如 图 6-56 所 示 ， 若 两 个 矩 
阵 值 皆 趋 近 于 零 ， 都 说 明 模型 存在 一 定 问题 。 


scala- model.userFeatures.map(x-»x. 2.mkString(",")).first 

res10: String = -9.572728584528909E-21,-1.6394816676029042E-20,3.0424765178240892Eb-21,-2.28 
55606170015364E-20,2.0726179932601047E-20,-2.5334865183054257E-20,4.5974920588928138E-21,-9. 
250397140891021E-21,1.7356659707366288E-20,-3.588555712734239E-20 


scala»  model.productFeatures.map(x-»x. 2.mkString(",")).first 
resll: String = -1.566870881015947E-20,-2.6835149478788106E-20,4.979946769924954E-21,-3.741 
021578616528E-20,3.392475456585385E-20,-4.146828309199374E-20,7.525206152454412E-21,-1.5141 
114597779824E-20,2.840949875108813E-20,-5.873772694352397E-20 


图 6-56 3 M P MEER BE SUR E THEE IE 


回顾 上 文 进行 参数 设置 时 ，lambda 参 数 的 默认 值 为 0.01， 但 我 们 将 其 调整 为 10.0。 若 将 其 调整 为 0.01 结 果 如 何 ? 将 lambda 参 数值 设置 为 0.01 后 ， 表 次 运行 模型 ， 可 以 得 到 如 图 6-57 所 示 的 结果 。 


scala> computeRMSE (model,test) 
res12: Double = 0.9366712588248947 


scala> model.userFeatures.map(x-»x. 2.mkString(",")).first 

resl13: String = -0.5751396417617798,-0.173855260014534,0.198139950633049,-0.145217895507812 
5,0.919003427028656,-2.0953433513641357,-0.10118599236011505,-0.009176370687782764,-0.94272 
24796028137,0.09388899803161621 


scala»  model.productFeatures.map(x-»x. 2.mkString(",")).first 

res14: String = 0.5283581614494324,-0.5838941931724548,0.3934488892555237,-0.380109906159659 
424,—-0.4099476933479309,-0.8183628916740417,0.12771561741828918,0.7795961499214172,-0.66150 
49242973328,0.7742260694503784 


图 6-57 ”lambad 二 0.01 的 模型 情况 


在 图 6-57 中 可 以 看 到 ， 该 模型 在 测试 集 test 上 的 表现 相 较 于 前 一 个 模型 效果 较 优 (效果 提升 约 3 倍 ) ， 并 且 其 用 户 特征 矩阵 或 项 目 特征 矩阵 基本 在 -1 ~ 1 之 间 ， 并 没有 趋 近 于 零 ， 说 明 此 时 的 模型 效果 较 
优 ， 可 应 用 于 推荐 预测 。 使 用 该 模型 对 各 用 户 进行 电影 推荐 预测 ， 发 现 各 用 户 其 预测 的 结果 基本 符合 其 各 自 喜 好 ， 已 不 存在 所 有 用 户 的 预测 结果 相同 的 情况 。 


一 般 情况 下 ， 针 对 参数 的 调整 ， 首 先 需 根据 业务 取出 部 分 数据 ， 将 参数 设置 的 范围 进行 相应 调整 (间隔 可 以 设置 为 3 倍 左右 ， 如 lambda 的 值 可 设置 为 0.01、0.03、0.1、0.3、1、3 等 ) 。 其 次 使 用 测试 
集 以 及 均 方 根 误差 快速 锁定 较 优 模型 的 参数 值 范 围 ， 如 0.01， 并 以 lambda 参 数值 0.01 为 基准 ,在 其 左右 各 取 一 个 值 ， 如 0.001、0.02 之 间 ， 并 设置 间隔 为 0.001 等 。 最 后 对 所 有 的 数据 进行 建 模 ， 并 计算 测试 
集 的 均 方 根 误差 ， 从 而 得 到 一 个 较 好 的 模型 。 根 据 上 述 过 程 ， 寻 找 最 优 模 型 的 示例 代码 如 代码 清单 6-16 所 示 。 


代码 清单 6-16 Spark ALS 最 优 模型 筛选 


val ranks = 8 to 12 

val lambdas = (0.01 to 1) .map ( .toDouble) 

val iters = 10 to 20 

var bestModel :Option[MatrixFactorizationModel] = None 
var bestRmse = Double.MaxValue 

var bestRank - 0 


var bestLambda - -1.0 
var bestlIter- -1 
for( rank«- ranks;lambda«-lambdas;iter«-iters) (val model = ALS.train(training,rank,iter,lambda); val validationRmse = computeRMSE (model, validation);if (validationRmse«bestRmse)( 


6.6 ”动手 实践 : 基于 Spark ALS 电 影 推荐 系统 


本 节 将 为 读者 提供 一 个 基于 Web 的 推荐 系统 ， 该 系统 架构 图 如 图 6-58 所 示 。 


. HBase ， HDFS Cassan 


dra 


图 6-58 ”电影 推荐 系统 架构 图 


该 架构 图 共 包 含 6 个 模块 : 数据 源 、 传 输 层 、 人 存储 层 、 计 算 层 、 应 用 层 以 及 公共 组 件 模块 。 为 使 读者 尽快 熟悉 架构 图 ， 并 直接 着 手 开 发 该 系统 ， 这 里 针对 上 述 系统 架构 进行 简化 ， 简 化 后 的 架构 如 图 6- 
59 所 示 。 


图 6-59 ”电影 推荐 系统 简化 架构 图 


该 系统 使 用 的 数据 集 全 部 存放 于 HDFS 中 ， 主 要 为 两 个 数据 (ratings.dat 和 movies.dat) 。 主 要 功能 如 下 : 在 Web 程 序 中 生成 或 更 新 Spark ALS 模 型 ,使 用 获得 的 模型 对 用 户 进行 推荐 ， 展 现 对 用 户 推 
荐 的 电影 ， 查 询 用 户 已 进行 评分 的 电影 。 


下 面 分 两 部 分 来 完成 我 们 的 系统 ， 具 体 代码 请 参考 文件 spark/code/Spark_ALS_Recommendation， 该 工程 中 部 分 代码 被 隐藏 ， 同 时 会 有 相应 的 TODO 提 示 供 读者 参考 。 


6.6.1 动手 实践 : 生成 算法 包 


生成 算法 包 ， 主 要 指 的 是 使 用 Intellij IDEA 工具 来 编写 Spark Scala 代 码 ， 并 编译 打包 ， 以 供 其 他 平台 使 用 。 


实验 步骤 : 


1) 打开 Intellij IDEA， 选 择 new 一 Project 一 Scala， 单 击 Next 按 钮 ， 在 New Project 界 面 中 输入 工程 名 AlsAlgorithm ， 选 择 JDK、SDK， 单 击 Finish 按 钮 ， 如 图 6-60 所 示 。 


图 6-60 ”新 建 AlsAlgorithm 工 程 界面 


—€—— 
v AlsAlgorithm (D:\program\coursera\scala\AlsAlgorithm) 
v Di.dea 
> O copyright 


目 name 


I 


compiler.xml 
misc.xml 


modules.xml 


J 182 187 


vcs.xml 


JR 
$ 
pet 


] | 


z 


** workspace.xml 


LN 
= 
- 


3I AlsAlgorithm.iml 
v Wh External Libraries 
> [a < 1.8 > (C\Program HlesJavaydk1.8.0 51) 
> Dm scala-sdk-2.10.5 


图 6-61 新 建 AlsAlgotithm 工 程 结构 


2) 添加 Spark 包 ， 参 考 6.2.5 节 配置 Spark， 工 程 配 置 成 功 结果 如 图 6-62 所 示 。 


v AlsAlgorithm (D*programWXcourseraMscalaMIsAlgorithm) 
v O idea 
» © copyright 
> D libraries 


J [$3 [ij 


Name 


! compiler.xml 


X» misc.xml 
| modules.xml 


vcs.xml 


183 [83 [83 | 


| workspace.xml 
src 
JI AlsAlgorithm.im| 
v gh External Libraries 
> [Z«18»(CAÀProgram HlesJavaydk1.8.0 51) 
> Duiscala-sdk-2.10.5 


图 6-62 AlsAlgotithm 配 置 好 Spark 包 后 的 工程 结构 
3) 在 src 下 新 建 als 包 ， 并 新 建 算法 类 (new 一 scala 一 object) ， 具体 代 码 如 代码 清单 6-17 所 示 。 


代码 清单 6-17 ALSModelTrainer 代 码 


package als 


import org.apache.spark.mllib.recommendation. 
import org.apache.spark.rdd.RDD 
import org.apache.spark.(SparkConf, SparkContext] 


* ALS 模型 训练 
* Created on 2016/8/4. 
* 
/ 
object ALSModelTrainer { 
def main (args: Array[String]) { 
if (args.length!=6) { 
System.err.println("Usage:als.ALSModelTrainner <ratings>" + 
" <output> <train percent> <ranks> <lambda>" + 
" «iteration»")  . 
System.exit (-1) 


val input: String = args (0) 
val output: String = args (1) 
val train percent: Double = args (2).toDouble 


val ranks: Int - args(3).toInt 

val lambda: Double = args(4).toDouble 

val iteration: Int = args(5).toInt 

if (train percent<=0.5 || train percent>=1.0){ 
System.err.println("train data size is not proper!") 


System.exit (-1) 


// 1: read data and split to train and test 
val conf = new SparkConf().setAppName ("train ALS Model ") 
val sc = new SparkContext (conf) 
val ratings = sc.textFile (input) .map{ 
line => val fields = line.split("::") 
val rating = Rating (fields (0) .toInt, 
fields (1) .toInt, fields (2) .toDouble) 
val timestamp = fields(3).toLong $10 
(timestamp, rating) 


// 2.split data to train and test 
// training data 

val training = ratings.filter(x-»x. 1«10*train percent 
.values.cache|() 
// testing data 
val testing = ratings.filter(x-»x. 1»-10*train percent 


— 


— 


.Values.cache () 
// 3. train the als model 
val model :MatrixFactorizationModel- ALS.train(training,ranks,iteration, lambda) 
// 4. calculate the RMSE 
val rmse = computeRMSE (model, testing) 
// 5. save result to output 
model.userFeatures.map(data => 

(data. 1+":"+data. 2.mkString(","))) 

.SaveAsTextFile (output-*"/userFeatures") 
model.productFeatures.map(data => 

(data. 1+":"+data. 2.mkString(","))) 

.SaveAsTextFile (output-*"/productFeatures") 
sc.parallelize (List (rmse),1).saveAsTextFile (output + "/rmse") 
// 6. close sc 
sc.stop() 


/** 
* 计算 模型 误差 
* Qparam model 模型 
* @param data 测试 数据 集 
* Qreturn 
*y 
def computeRMSE (model:MatrixFactorizationModel, data:RDD[Rating]): Double = { 
val usersProducts = data.map (x=> (x.user,X.product) ) 
val ratingsAndPredictions = data.map{ 
case Rating (user, product, rating)=> 
( (user, product) , rating) } 
.join (model.predict (usersProducts) .map{ 
case Rating (user, product, rating)-» ( (user, product), rating) } 
).values 
math.sqrt(ratingsAndPredictions.map(x-»(x. l-x. 2)*(x. l-x. 2)).mean()) 


} 


4) 添加 Artifact 包 (算法 输出 jar 包 ) ， 首先 依次 单 击 Project Structure 一 Artifacts 一 + 一 JAR 一 Empty， 如 图 6-63 所 示 ; 其 次 在 弹出 的 对 话 框 中 ， 在 Name 中 修改 和 名字， 双击 AlsAlgorithm 中 
的 'AlsAlgorithm'compile outout 选 项 ， 如 图 6-64 所 示 ; 最 后 在 弹出 的 对 话 框 中 单 击 'AlsAlgorithm'compile outout 一 OK， 如 图 6-65 所 示 。 


€ c 


Project Settings 


Project 


88 JavaFx Application » 
8B JavaFx Preloader 
Libraries BB Other 


Modules From modules with dependencies... 
Artifacts 

Platform Settings 
SDKs 
Global Libraries 


Problems 


图 6-63 添加 Artifact 包 1 
| Project Structure — 
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图 6-64 添加 Attifact 包 2 
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图 6-65 ”添加 Artrtifact 包 3 


:ein Tools VCS Window Help 

Ji Make Project me Ctri F9 
Make Module 'AlsAlgorithm' 
Compile 'ALSModelTrainer.scala' Ctrl - Shift -- F9 
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图 6-66 ”编译 生成 Attifact 1 
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图 6-67 ”编译 生成 Artifact 2 


生成 Artifact 后 ， 在 工程 的 目录 结构 中 可 看 到 生成 的 Jar 包 ， 如 图 6-68 所 示 。 
v Là AlsAlgorithm (DAprogramM rsera\scala\Als Alg 3rithm) 
> LD.idea 
v O out 
v Ö artifacts 


v spark161 als jar 


spark161-als,jarjar 
> [production 


图 6-68 生成 的 算法 是 Jar 包 


在 生成 Jar 包 后 ， 即 可 将 该 Jar 包 拷贝 到 Web 工 程 中 以 供 调用 。 


A AD AHESTE. CO:iEHEIERZ ZA 
6.6.2. JJF: EEFI 


本 节 使 用 简单 JavaEE 技 术 ， 对 Web 项 目 编写 电影 推荐 系统 。 该 电影 推荐 系统 包括 两 个 功能 : 其 一， 进行 模型 建立 ， 用 户 可 在 设置 建 模 所 需 参数 后 建立 模型 ; 其 二 ， 进 行 推荐 ， 用 户 建 立 的 模型 对 各 用 户 
进行 推荐 ， 此 应 用 相对 简单 ， 输 入 用 户 ID， 并 对 该 用 户 进行 Top 推 荐 即 可 。 下 文 将 详细 说 明 具 体 的 实验 步骤 。 


1. 工 程 初步 完善 
1) 参考 第 4 章 中 建立 Web 工 程 的 相关 章节 ， 在 建立 工程 名 为 Spark_ALS_Recomm-endation 的 工程 后 ， 会 建立 如 图 6-69 所 示 目 录 结 构 。 


2) 添加 Jar 包 到 WebContent/WEB-INF/lib， 主 要 包括 Guava 包 、Spark 集 成 包 以 及 我 们 自己 编译 的 算法 包 ， 如 图 6-70 所 示 。 


v EE Spark ALS Recommendation 
Ba Deployment Descriptor: Spark ALS Recommendation 
» Æ JAX-WS Web Services 
v Bh Java Resources 
^ [8 src 
v E Libraries 
^ BÀ Apache Tomcat v7.0 [Apache Tomcat v7.0] 
m. EAR Libraries 
mà JRE System Library [jdk1.8.0 51] 
mà Web App Libraries 
> B JavaScript Resources 
& build 
v [= WebContent 
œ META-INF 
wv [> WEB-INF 
E lb 
X| web.xml 


图 6-69 Spark_ALS_Recommendation Web 工 程 目录 结构 


v EE Spark ALS Recommendation 
> Ba Deployment Descriptor: Spark ALS Recommendation 
» A JAX-WS& Web Services 
v 9B Java Resources 
» [E sre 
wv EA Libraries 
> Bà Apache Tomcat v7.0 [Apache Tomcat v7.0] 
z) EAR Libraries 
> BÀ JRE System Library [jdk1.8.0 51] 
» mà Web App Libraries 
> EB) lavaScript Resources 
> & build 
w [2 WebContent 
> [2 META-INF 
w [C= WEB-INF 
w [ lib 
E5| guava-11.0.2.Jar 


名 | spark-assembly-1.6.1-hadoop2.6.0.Jar 


B5| spark161-als.jar 


图 6-70 Spark ALS Recommendation Web 工 程 目录 结构 (添加 Jar 包 后 ) 


其 中 ，guava 包 可 在 Hadoop 的 解压 包 hadoop-2.6.0\share\hadoop\common\lib 中 下 载 ， 而 spark-assembly-1.6.1-hadoop2.6.0.jar 包 可 在 Spark 的 解压 包 中 下 载 。 但 spark 集 成 包 会 与 Tomcat 中 的 
类 相 冲 突 ， 此 时 可 参考 图 6-71 进 行 修改 。 


3) 修改 主页 index.jsp (WebContent 目 录 下 ， 如 果 没有 则 新 建 ) ， 添 加 相关 页 面 展 示 ， 其 代码 如 代码 清单 6-18 所 示 。 修 改 后 ， 启 动工 程 ， 访 问 即 可 看 到 修改 后 的 首页 ， 如 图 6-72 所 示 。 


: E spark-assembly-1.6.1-hadoop2.6.0,aryavax - ZIP64 H:Sg vr PE, EAA 439, 270,880 m5 


大 小 HEBA tnt 


| | activation 2016/2/26 20:56 
| annotation 2016/2/26 20:56 
|j inject 2016/2/26 20:57 
ljdo 2016/2/26 20:58 
i mail | 2016/2/26 20:56 
| management vrbs 2016/2/26 20:56 


| | realtime — 2016/2/26 20:57 
| security A 删 掉 此 文件 夹 | mE 2016/2/26 20:58 


| Jservlet T 2016/2/26 20:56 
| |transaction Hi 2016/2/26 20:58 
iws : 2016/2/26 20:56 

| xml b 2016/2/26 20:57 


图 6-71 fi Jespark-assembly-1.6.1-hadoop2.6.0.jar 5 Tomcat Servlet J£ »P X 


代码 清单 6-18 index.jsp 


«$8 page language-"java" contentType-"text/html1; charset=UTF-8" 
pageEncoding-"UTF-8"$» 
«!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" "http://www.w3.org/TR/html4/loose.dtd"» 
«html» 
«head» 
«meta http-equiv-"Content-Type" content-"text/html; charset-UTF-8"» 
<title> 电 影 在 线 推荐 系统 </title> 
</head> 
<body> 
<div style="padding-top: 30px"> 
«hl align="center"> 基 于 Spark ALS 的 电影 推荐 系统 </h1> 
«div style-"padding-left: 40px"> 


<p > 
基于 Spark ALS 的 电影 推荐 系统 .… 
</p> 
«a href="runAls.jsp"> 建 立 模型 </a> «br» «br» 
«a href="recommend.jsp"> 推 荐 查询 </a> <br><br> 
</div> 
</div> 
</body> 
</html> 


Q | O localhost:8080/Spark ALS Recommendation/ 


基于 Spark ALS 的 电影 推 大 系统 


基于 Spark ALSA RRJET Ro o o 


图 6-72 ”推荐 系统 首页 
4) 在 WebContent 目 录 下 建立 runAls.jsp 文 件 ， 添 加 相关 页 面 展 示 ， 其 代码 如 代码 清单 6-19 所 示 。 修 改 后， 启动 工程 ， 访 问 即 可 看 到 模型 建立 界面 ， 如 图 6-73 所 示 。 


代码 清单 6-19 runALs.jsp 


«$8 page language-"java" contentType-"text/html; charset=UTF-8" 
pageEncoding-"UTF-8"$» 
<!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" "http://www.w3.org/TR/htm14/loose.dtd"» 
«html» 
«head» 
«meta http-equiv-"Content-Type" content-"text/html; charset-UTF-8"» 


<title> 电 影 在 线 推荐 系统 # 建 模 </title> 


</head> 
<body> 
<div style="padding-top: 50px; text-align: center"> 
<div> 
<h2> 电 影 在 线 推荐 系统 # 建 立 模 型 </h2> 
</div> 
«form action-"RunALS" method="get"> 
«!-- «input» «output» «train percent» «ranks» «lambda» «iteration» --> 
«table border-"0" align="center" style="padding: 20px"» 
«tr » 


<td> 输 入 路 径 (Rating.dat) : </td> 


<td><input type="text" name-"input" id-"input id"»«/td» 
</tr> 
<tr > 
<tdq> 训 练 比 重 (0~1) : </td> 
«td» 
«select name-"train percent" id-"train percent id"» 
«option Value="0.9" selected-"selected"»0.9«/option» 
«option value-"0.8"»0.8«/option» 
«option value-"0.7" »0.7«/option» 
«option value-"0.6"»0.6«/option» 
«option value-"0.5"»0.5«/option» 
«option value-"0.4" »0.4«/option» 
«option value-"0.3"»0.3«/option» 
«/select» 
«/td» 
</tr> 
<tr > 
<tdq> 和 矩阵 分 解 秩 : </td> 
«td» 


«select name-"ranks" id-"ranks id"» 
«option value-"8" selected-"selected"»58«/option» 


«option Value="9">9</option> 

«option value-"10" >10</option> 
«option value-"11"»11«/option» 
«option value-"12"»12«/option» 


</select> 
</td> 
</tr> 
<tr > 
<tdq> 正 则 系数 : </td> 
«td» 
«select name-"lambda" id-"lambda id"» 
«option value-"0.001"»0.001«/option» 
«option value-"0.003"»20.003«/option» 
«option value-"0.01" selected-"selected"»50.01«/option» 
«option value-"0.03"»20.03«/option» 
«option value-"0.1"»0.1«/option» 
«option value-"0.3"»50.3«/option» 
«option value-"1"»1«/option» 
«option value-"3"»3«/option» 
«option value-"10"»10«/option» 
</select> 
</td> 
</tr> 
<tr > 
<tdq> 循 环 次 数 : </td> 
«td» 
«select name-"iteration" id-"iteration id"» 
«option value-"20" selected-"selected"»20«/option» 
«option value-"9"»9«/option» 
«option value-"10" »10«/option» 
«option value-"11"»11«/option» 
«option value-"12"»12«/option» 
«option value-"19"»19«/option» 
«option value-"15" »15«/option» 
«option value-"21"»21«/option» 
«option value-"30"»30«/option» 
</select> 
</td> 
</tr> 
<tr style="text-align: left "> 
<td><input type="submit" value=" Œ" ></td> 
</tr> 
</table> 
</form> 
</div> 
</body> 
</html> 


Et (Rating. dat) : 


东 比 重 (0 1) ， 


A ERG 


图 6-73 ”模型 建立 界面 


5) 在 WebContent 目 录 下 建立 recommendjsp 文 件 ， 添 加 相关 页 面 展 示 ， 其 代码 如 代码 清单 6-20 所 示 。 修 改 后 ， 启 动工 程 ， 访 问 即 可 看 到 修改 后 的 首页 ， 如 图 6-74 所 示 。 


图 6-74 ”模型 推荐 界面 


代码 清单 6-20 recommend.jsp 


«$8 page language-"java" contentType-"text/html; charset=UTF-8" 
pageEncoding-"UTF-8"$» 
<!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" "http://www.w3.org/TR/htm14/loose.dtd"» 
«html» 
«head» 
«meta http-equiv-"Content-Type" content-"text/html; charset-GBK"» 
<title> 电 影 在 线 推荐 系统 # 推 荐 </title> 


</head> 
<body> 
«div style-"padding-top: 50px; text-align: center"> 
«div» 
<h2> 电 影 在 线 推荐 系统 # 推 荐 </h2> 
</div> 


<form action="Recommend" method="get"> 

«table border="0" align="center" style="padding: 20px"> 
<tr > 

«td»JHP'ID: </td> 


<td><input type="text" name-"user" id-"uid"»«/td» 
</tr> 
<tr style="text-align: left "s 
<td><input type="submit" value=" 推 荐 " ></td> 
</tr> 
</table> 
</form> 
</div> 
</body> 
</html> 


2. 功 能 完善 及 核心 实现 


影 推荐 系统 核心 功能 为 : 设置 参数 、 建 立 模型 并 应 用 模型 进行 推荐 。 


其 中 ， 设 置 参数 ， 建 立 模 型 在 Web 程 序 中 采用 单线 程 调 用 模式 ， 即 直接 调用 后 台 算 法 ， 等 待 模型 建立 完成 ， 再 返回 前 台 。 这 里 涉及 调用 Spark 运 行 其 算法 建 模 的 代码 ， 佑 要 确定 该 代码 ， 则 需 先 确定 使 


用 哪 种 方式 调用 Spark。 由 于 在 一 般 的 企业 应 用 中 ， 大 多 使 用 Spark On YARN 的 方式 进行 调用 ， 因 此 本 节 将 采用 此 模式 进行 说 明 。 


在 进行 模型 推荐 时 ， 由 于 直接 参考 Spark 算 法 编写 的 推荐 算法 程序 ， 其 运行 速度 要 远 比 使 用 Spark On YARN 的 方式 快 ， 因 此 本 节 采 用 直接 编写 其 实现 代码 的 方式 ， 而 非 调 用 Spark 算 法 。 那 为 什么 在 建 


立 模型 时 不 采用 该 方式 呢 ” 原因 在 于 直接 编写 其 ALS 实 现代 码 难度 大 ， 且 Spark On YARN 的 调用 方式 的 开销 ， 与 运行 ALS 算 法 的 开销 相 比 更 小 。 
下 面 看 看 具体 实现 。 
(1) 基础 模块 
基础 模块 包括 : Movies 电 影 缓存 、Ratings 评 分 数据 预 处 理 代码 、HDFS 与 YARN 连 接 代码 、Spark On YARN 调 用 代码 。 


Movies 电 影 缓存 主要 指 在 推荐 时 可 根据 对 应 的 推荐 ID 将 电影 的 名 称 、 相 关 标 签 等 信息 加 载 出 来 。 由 于 数据 在 HDFS 上 ， 因 此 将 涉及 HDFS 的 读 取 问 题 。 其 核心 代码 如 代码 清单 6-21 所 示 ， 将 
照 <ld，information> 的 格式 加 载 到 一 个 Map 中 ， 最 后 还 需 获取 所 有 电影 的 Id 集合 。 


代码 清单 6-21 加载 Movies 数 据 到 缓存 


影 数据 按 


// 读 取 movies 数 据 到 : Map<movieId,Movie-descriptions> 
Path path = new Path (MOVIESDATA); 

FileSystem fs FileSystem.get (getConf ()); 

BufferedReader br = null; 

InputStreamReader inputReader - null; 

try 1 
inputReader = new InputStreamReader (fs.open (path)); 
br = new BufferedReader (inputReader); 

String line; 

String[] words = null; 

int id = -1; 

// MovieID::Title::Genres 


while ((line = br.readLine()) !- null) { 
words = line.split (DOUBLECOLON); 
id = Integer.parseInt (words[0]); 


movies.put(id, new Movie(id, words[1], words[2])); 


} 
System.out.println("Movies data size:" + movies.size()); 
) catch (Exception e) { 
e.printStackTrace(); 
) finally ( 
inputReader.close(); 
br.close(); 


) 
// 得 到 所 有 电影 Id 


allMovields = movies.keySet(); 


Ratings 评 分 数据 预 处 理 主要 指 获 取 各 个 用 户 已 进行 评分 的 电影 1d 集 合 ， 该 数据 在 推荐 时 用 于 电影 过 滤 ， 只 推荐 用 户 没有 进行 评分 的 电影 ld。 其 核心 代码 如 代码 清单 6-22 所 示 。 


代码 清单 6-22 ”Ratings 数 据 预 处 理 


// 读 取 ratings 数 据 


path = new 
try { 


Pa 


$jMap«userid, ratedMoviesId» (not recommended) 
th (RATINGSDATA) ; 


inputReader = new InputStreamReader (fs .open (path)); 


br = n 
String 
String 
int ui 
HashSe 
// Use 
while 
WO 
ui 


ew 
li 
[] 
de 
七 < 工 


BufferedReader (inputReader); 
ne; 
words = null; 


r 
nteger» movields = null; 


ELD: 


( (1 


rds 


:MovieID::Rating::Timestamp 
ine = br.readLine()) !- null) { 


d-^]1] 


= line.split (DOUBLECOLON); 
[nteger.parseInt (words [0] ) 


if 


(u 
u 


serWithRatedMovies.containsKey (uid)) { 
serWithRatedMovies.get(uid).add(Integer.parseInt (words[1])); 


) else { 


} 
} 


m 


ovields = new HashSet<>(); 
m 
u 


ovields.add(Integer.parseInt (words[1])); 
serWithRatedMovies.put(uid, movields) 


RM 


System.out.println("Users data size:" + userWithRatedMovies.size()); 
) catch (Exception e) { 
e.printStackTrace(); 


) finally 


— 


inputReader.close(); 
br.close(); 


由 于 Movies 及 Ratings 数 据 属 于 一 些 初始 化 的 工作 ， 因 此 在 Tomcat 系 统 启动 时 对 其 进行 加 载 。Tomcat 启 动 时， 在 终端 可 看 到 类 似 代码 清单 6-23 所 示 的 日 志 信息 ， 表 中 的 斜体 字 为 统计 的 电影 及 用 户 个 


代码 清单 6-23 Tomcat 系统 启动 部 分 日 志 信息 


言 息 : Creation 


of 


SecureRandom instance for session ID generation using [SHAIPRNG] took [141] milliseconds. 


initial beginhttp://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/16328/OEBPS/Text/.. 

2016-10-08 13:47:09,055 WARN [org.apache.hadoop.util.NativeCodeLoader] - Unable to load native-hadoop library for your platformhttp://www.hzcourse.com/resource/readBook?path-/c 
Movies data size:3883 

Users data size:6040 


initial end! 


H 08, 2016 1:47:37 FF org.apache.coyote.AbstractProtocol start 


Hb: Starting ProtocolHandler ["http-bio-8080"] 


获取 HDFS、YARN 连 接 需 要 设置 Configuration 类 的 参数 ， 核 心 代 码 如 代码 清单 6-24 所 示 。 


代码 清单 6-24 Configuration 参 数 设置 代码 


/** 
* 获取 Configuration 配 置 文件 
* Qreturn 
us 
public static Configuration getConf () { 
if (configuration == null) ( 
configuration = new Configuration(); 
configuration.setBoolean ("mapreduce.app-submission.cross-platform", true); 
configuration.set("fs.defaultFS", "hdfs://master:8020"); 
configuration.set ("mapreduce.framework.name", "yarn"); 
configuration.set("yarn.resourcemanager.address", "master:8032"); 
configuration.set("yarn.resourcemanager.scheduler.address", "master:8030"); 
configuration.set ("mapreduce.jobhistory.address", "master:10020"); 
) 
return configuration; 


wa 上 面 的 代码 中 ， 机 器 名 mastet 需 根据 读者 自己 的 集群 实际 情况 进行 配置 。 


Spark On YARN 通 用 调用 代码 主要 为 框架 类 代码 ， 其 核心 代码 如 代码 清单 6-25 所 示 。 


代码 清单 6-25 Spark On YARN 通 用 调用 代码 


/** 

* 调用 Spark 

* (param args 
* (return 


*/ 


public static boolean runSpark(String[] args) { 


try ( 


System. setProperty ("SPARK YARN MODE", "true"); 


SparkConf 


sparkConf = new SparkConf(); 


一 


SparkConf 
SparkConf 


.Set("spark.yarn.jar", "hdfs://master:8020/user/root/spark-assembly-1.6.1-hadoop2.6.0.jar"); 


ClientArg 


new Client 


.set("spark.yarn.scheduler.heartbeat.interval-ms", "1000"); 
uments cArgs = new ClientArguments (args, sparkConf); 
(cArgs, getConf(), sparkConf).run(); 


) catch (Exception e) { 
e.printS 


return 


) 


return true; 


tackTrace(); 


false; 


= Q H- 
wa spatk-assembly-1.6.1-hadoop2.6.0.jat 需 提前 上 传 到 HDFS， 同 时 这 里 上 传 的 为 原生 文件 。 若 上 传 的 为 修改 后 的 Jar 包 ， 则 会 报 java.lang.NoClassDefFoundEtrror: javax/servlet/http/HttpServlet 错 误 。 


在 代码 清单 6-25 中 ，sparkConf.set 中 的 两 条 语句 是 可 修改 的 ， 其 中 ， 第 1 句 用 于 指明 spark-assembly jar 包 所 在 的 地 址 ; 若 不 对 其 指明 ， 那 么 在 Web 项 目 中 将 直接 上 传 WebContent/WEB-INF/lib 下 对 
应 的 包 到 HDFS 的 临时 目录 中 ， 并 调用 具体 算法 ; 为 了 减少 不 必要 的 上 传 开销 ， 可 直接 指明 其 HDFS 地 址 。 第 2 句 SparkConf 的 设置 用 于 获取 心跳 时 间 间 隔 ， 一 般 情况 下 ， 可 使 用 默认 值 (默认 为 5 秒 ) ; 若 等 
待 时 间 较 长 ， 同 时 集群 网 络 较 好 时 ， 可 以 将 该 值 调 小 ， 如 代码 中 设置 为 1 秒 。 


(2) 建立 模型 模块 


由 于 spark On YARN 通 用 代码 在 上 面 已 进行 说 明 ， 这 里 不 再 过 多 介绍 。 本 节 对 其 涉及 的 参数 设置 进行 具体 说 明 。 代 码 清单 6-26 所 示 为 Sbark ALS 算 法 调用 的 驱动 类 


代码 清单 6-26 Spark ALS 调 用 驱动 代码 


//«input» «output» «train percent» «ranks» «lambda» «iteration» 
public static boolean runALS (String input,String output, String train percent,String ranks,String lambda, 
String iteration) throws IllegalArgumentException, IOException( 

String[] runArgs-new String[]í 
"—-name","ALS Model Train ", 
"—--Cclass","als.ALSModelTrainer", 
"--driver-memory","1g", 
"--num-executors", "2", 
"--executor-memory", "864m", 


"——jar","hdfs://node1:8020/user/root/sparkl61-als.jar",// 
"——-files","hdfs://node1:8020/user/root/yarn-site.xml", 

"——arg" ; input, 

"—-arg",output, 

"—-arg",train percent, 

"--arg",ranks, 

"--arg",lambda, 

"--arg",iteration 


E 
FileSystem.get (Utils.getConf()).delete(new Path (output), true); 
return Utils.runSpark (runArgs); 


} 


代码 清单 6-26 中 的 参数 解释 如 下 。 
'—name: 读者 可 以 自 定义 ， 为 算法 在 YARN 任 务 中 的 名 字 。 
--class: 不 可 修改 ， 与 代码 清单 6-17 中 的 相关 包 以 及 类 对 应 。 
--driver-memory , --num-executors, --executor-memory: 运行 Spatk ALS 算 法 需要 的 资源 ， 读 者 可 根据 自己 集群 的 实际 情况 进行 配置 。 
(jar 此 参数 根据 实际 jar 包 所 在 路 径 配 置 即 可 。 与 前 文 提 到 的 sparkConf.set 中 Jar 包 类 似 ， 若 不 进行 配置 ， 则 将 WebContent/WEB-INFVIib 目 录 下 的 对 应 Jar 包 上 传 到 HDFS 临 时 目录 中 。 


—files: 这 里 需要 指明 yarn-site.xml 文 件 所 在 的 地 址 ， 同 时 把 集群 的 该 文件 上 传 到 HDFS 中 。 若 不 进行 设置 ， 当 Spatk 的 Application Mastet 任 务 与 YARN Resoutce-managet 不 在 同一 个 节点 时 ， 将 读 取 不 到 配置 
文件 。 


. arg: Spark ALS 算 法 的 实际 参数 ， 该 参数 与 代码 清单 6-17 中 的 参数 一 一 对 应 。 
在 界面 中 使 用 的 参数 : 循环 次 数 : 20; 秩 个 数 : 10; lambda 值 : 0.01; 训练 数据 比重 : 90%。 经 过 训练 后 ， 可 看 到 界面 的 提示 如 图 6-75 所 示 。 


同时 ， 在 输出 目录 中 可 看 到 如 图 6-76 所 示 的 文件 夹 ， 即 建立 模型 后 的 相关 文件 ， 并 在 进行 推荐 时 需 用 到 该 文件 。 同 时 该 文件 夹 也 可 在 基础 模块 的 Utils 类 中 配置 ， 若 在 建 模 过 程 中 报 类 似 HDFS 没 有 写 入 
的 权限 时 ， 则 可 修改 此 目录 或 增加 该 目录 的 相应 权限 。 


€ C Dlocalhost:8080/Spark ALS Recommendation/RunALS? 


Served at: /Spark ALS Recommendation 


1871235. 0, 8800960573230897 


图 6-75 ”模型 训练 后 结果 


Contents of directory /user/fansy/als output 


: /user/fansy/als output 


Modification Time 


2016-10-08 15:26 
2016-10-08 15:26 
|2016-10-08 15:286 


图 6-76 Spark ALS 模 型 相关 文件 夹 
(3) 推荐 模块 
本 文 简单 将 推荐 模块 功能 设计 为 : 提供 一 个 用 户 ID， 根 据 此 1D 为 用户 推荐 Top 电 影 。 在 推荐 时 ， 后 台 的 实现 采用 参考 Spark ALSs 算 法 自行 编写 代码 的 方式 ， 而 非 直接 调用 Spark 相 关 接 口 。 


Spark ALS 推 荐 流程 为 : 首先 ， 根 据 用 户 ID， 获 取 所 有 该 用 户 已 进行 评价 的 电影 ， 然 后 使 用 该 电影 集合 过 滤 所 有 电影 ID， 得 到 候选 电影 ID 集合 ; 然后 ， 找 到 用 户 特征 向 量 ， 使 用 用 户 特征 向 量 和 候选 电 
影 ID 集 合 中 ， 对 各 电影 特征 向 量 做 乘积 后 得 到 各 电影 的 相应 评分 ， 取 出 其 评分 最 高 的 10 个 作为 返回 值 。 该 推荐 流程 的 核心 代码 如 代码 清单 6-27 所 示 。 


代码 清单 6-27 Spark ALS 推 荐 实现 代码 


* 预测 如 果 没 有 初始 化 ， 则 进行 初始 化 


* @param uid 


* Qreturn 


*/ 
public static List«Movie» predict(int uid) ( 
if (userFeatures.size() <= 0 || productFeatures.size() <= 0) { 
try { 


userFeatures - getModelFeatures (userFeaturePath); 

productFeatures = getModelFeatures (productFeaturePath); 
) catch (IOException e) ( 

return null; 


Li. 


f (userFeatures.size() <= 0 || productFeatures.size() <= 0) { 
System.err.println (" 模 型 加 载 失 败 !") 
return null; 


) 


// 使 用 模型 进行 预测 
: l 找到 uig 没 有 评价 过 的 movieIgs 
t«Integer» candidates = Sets.difference((Set«Integer») allMovields, userWith-RatedMovies.get (uid)); 
// 构造 推荐 排序 堆栈 
FixSizePriorityQueue«Movie» recommend = new FixSizePriorityQueue<Movie> (TOPN); 
Movie movie = null; 
double[] pFeature - null; 
double[] uFeature = userFeatures.get (uid); 
double score = 0.0; 
BLAS blas = BLAS.getInstance|(); 
for (int candidate : candidates) { 
movie = movies.get (candidate); 
pFeature = productFeatures.get (candidate); 
if (pFeature—null) continue; 
Score = blas.ddot(pFeature.length, uFeature, 1, pFeature, 1); 
movie.setRated((float) score); 
recommend.add (movie); 


) 


return recommend.sortedList(); 


在 代码 清单 6-27 中 可 看 到 ， 用 户 特征 向 量 及 电影 特征 向 量 可 从 模型 训练 的 相关 文件 中 直接 读 取 。 同 时 ， 在 进行 Top 电 影 求 解 时 ， 并 非 针 对 所 有 电影 做 排序 ， 而 是 采用 一 个 堆栈 实现 。 例 如 ， 针 对 用 户 3 进 
行 推荐 ， 得 到 的 结果 如 图 6-77 所 示 。 


€ C Dlocalhost:E Spark ALS Recommendation/Recommend?user 


Served at: /Spark ALS Amen 
1471|Boys Life 2 (1997) [Drama | 7. 724419 
2482|Still Crazy (1998) |Comeay | Romanca | 7, 201479 
2882|New Rose Hotel (1998) |Action|DramalT. 2038436 
2834|Very Thought of You, The (1998) Comedy Romance |7. 0745687 
T18|Visitors, The (Les Visiteurs) (1993) |Comedy Sci-Fi |7. 015765 
561 [Killer : (tproo © (1994) [Thriller |6. 939625 

2487 |B1ood, «— buttsts ana tah (1998) [Actian]C "Comedy |6. 71272 
3050 Ti zerland (2000) [Drama |6. 5259212 
3640|King in New York, A (1957) |Comedy |Drama |6. 4621186 
614|Loaded (1994) Drama |Thriller |6. 3807764 


图 6-77 用 户 3 推荐 结 


6.7 ”本章 小 结 
本 章 首 先 简要 概括 了 Spark 及 其 生态 系统 ， 包 括 Spark Mllib. Spark SQL. Spark Strea-ming. Spark GraphX 等 。 其 次 提供 一 个 实际 集群 的 配置 及 使 用 方式 的 简介 ， 并 在 此 基础 上 ， 给 出 两 个 动手 实践 内 容 ， 让 
读者 对 Spatk 开 发 及 简单 的 实例 有 一 个 直观 的 印象 。 


本 章 详细 介绍 了 Spa 全 的 核心 架构 、 原 理 ， 包 括 RDD 原 理 、Spatk 任 务 提交 流程 等 。 同 时 ， 对 Spatrk 编 程 技巧 进行 详细 讲解 ， 使 读者 可 独立 开发 所 需 程序 。 由 于 Spatk 涵 盖 众 多 模块 ， 且 每 个 模块 的 内 容 涉 及 
广泛 ， 因 此 本 章 不 进行 一 一 讲解 ， 只 提供 Spatk MLlib 中 的 ALS 算 法 学 习 方 法 ， 和 希望 读者 可 以 举一反三 ， 培 养 动手 学 习 能 力 。 并 且 结 合 JavaEE 相 关 知 识 ， 应 用 Spatk ALS 算 法 ， 建 立 了 一 个 简单 的 电影 推荐 系 
统 ， 以 提高 读者 在 实际 项 目 中 运用 Spatk 相 关 知 识 的 能 力 ， 并 为 读者 提供 一 个 企业 实际 项 目 应 用 Spark、 开 发 Spatk 的 真实 体验 。 


第 7 章 ”大 数据 工作 流 一 Oozie 


在 大 数据 工作 环境 中 ， 有 时 需要 把 多 个 任务 (如 MR 任务 、Hive 任 务 、Pig 任 务 、Spatk 任 务 等 ) 进行 一 定 的 逻辑 整合 ， 从 而 形成 工作 流 。 当 然 ， 把 多 个 任务 进行 整合 也 可 以 使 用 脚本 的 形式 (如 在 Linux 中 
使 用 cron 表 达 式 等 ) , 但是， 这样 的 脚本 比较 难 维护 ， 同 时 ， 多 个 任务 其 监控 也 难以 整合 。 但 使 用 Oozie 就 不 会 有 这 样 的 问题 ，Oozie 使 用 标准 的 XML 文 件 来 定义 大 数据 工作 流 ， 文 件 简 单 易 理解 ， 搭 配 Oozie 
特有 的 工作 流 监控 《Tomcat Web 平 台 界 面 ) 让 用 户 可 以 很 直观 地 看 到 工作 流 中 各 个 任务 的 状态 以 及 总 任务 的 状态 。 


本 章 中 ， 向 读者 介绍 Oozie 这 一 组 件 的 基本 概念 及 其 核心 设计 理念 ， 通 过 Oozie 编 译 、 安 装配 置 的 详细 过 程 ， 让 读者 可 以 有 一 个 动手 实践 的 环境 。 然 后 通过 大 量 丰 富 的 动手 实践 ， 让 读者 能 够 快速 掌握 
Oozie 的 使 用 ， 方 便 地 把 Oozie 应 用 到 自己 的 大 数据 工作 流 中 。 


7.1 Oozie 简 介 


Oozie 是 一 个 开源 的 Apache 项 目 ， 提 供 Hadoop 任 务 的 调度 和 管理 。Oozie 不 仅 可 以 管理 MapReduce 任 务 ， 还 可 以 管理 Pig、Hive、Sqoop、Spark 等 任务 。 


Oozie 是 一 个 Java Web 应 用 ， 部 署 在 Tomcat 服 务 器 上 ， 启 动 部 署 了 Oozie 的 Tomcat 后 ， 就 可 以 在 Oozie 的 客户 端 使 用 命令 提交 相关 的 工作 流 任务 了 。 


简单 地 说 ，Oozie 就 是 一 个 工作 流 引擎 ， 只 不 过 它 是 一 个 基于 Hadoop 的 工作 流 引 警 。 在 实际 工作 中 ， 遇 到 对 数据 进行 一 连 串 的 操作 的 时 候 很 实用 ， 不 需要 自己 写 一 些 流程 处 理 代 码 ， 只 需要 定义 好 各 个 
Action， 然 后 把 它们 串 在 一 个 工作 流 里 面 ， 设 置 好 触发 条 件 就 可 以 自动 执行 了 。 对 于 复杂 的 大 数据 分 析 工 作 非 常 有 用 。 


Oozie 有 两 个 主要 的 组 件 。 
: 工作 流 定 义 组 件 (Oozie Workflow) : 一 系列 Action 的 列表 (在 wotkflow.xml 中 定义 ) 。 
- 调度 器 组 件 (Oozie Coordinator) : 可 调度 的 WotkFlow (在 coordinator.xml 中 定义 ) 。 


其 中 ，Action 是 指 一 个 任务 (节点) ， 比 如 MapReduce 任 务 、Pig 任 务 、Hive 任 务 等 ; 而 WorkFlow 就 是 定义 了 一 个 DAG 的 任务 图 ， 而 调度 器 则 是 可 以 决定 在 某 个 时 间或 符合 某 种 条 件 来 执行 已 经 定义 
的 DAG 任 务 图 的 组 件 。 


7.2 编译 配置 并 运行 Oozie 
7.2.1 动手 实践 : 编译 Oozie 


Oozie 在 安装 使 用 前 需要 根据 Hadoop 集 群 中 安装 软件 的 版 本 进行 编译 的 工作 ， 否 则 可 能 会 因为 版 本 不 一 致 ， 导 致 任务 执行 失败 。 如 果 读 者 使 用 网 上 下 载 的 已 编译 好 的 Oozie 压 缩 包 ， 那 么 读者 的 
Hadoop 集 群 中 所 安装 的 软件 版 本 需要 和 编译 者 的 版 本 保持 一 致 。 本 书 中 使 用 到 的 软件 版 本 如 表 7-1 所 示 。 


表 7-1 Hadoop 集 群 安装 软件 版 本 列表 


软件 名 称 软件 名 称 版 ”本 


Hadoop 2.6.0 JDK 1.7 


Pig 0.15.0 MySQL 5.6 


本 书 中 使 用 的 Hadoop、Spark、HBase 集 群 ，Hive、Pig 等 拓扑 参考 前 面 的 章节 ，Oozie 部 署 在 slave2 节 点 上 。 
编译 准备 步骤 如 下 : 

1) 安装 Tomcat， 为 保证 编译 顺利 ，Tomcat 版 本 必须 是 7.0 以 上 。 

2) 从 Apache 官 方 网 站 下 载 Oozie4.2.0 版 本 (如 果 读 者 下 载 其 他 版 本 ， 则 需要 注意 各 个 版 本 之 间 的 差异 ) 。 


3) 将 下 载 的 压缩 包 和 解压 到 集群 中 任意 节点 合适 的 位 置 ， 本 书 的 位 置 是 节点 slave2 下 的 /usr/local 目 录 。 命 令 如 下 : 


tar -zxf oozie-4.2.0.tar.gz -C /usr/local 


4) 修改 解压 后 Oozie 的 pom.xm| 文 件 。 命 令 如 下 : 


vim /usr/local/oozie-4.2.0/distro/pom.xml 


在 文件 中 找到 < get src-"http://archive.apache.org/dist/tomcat/tomcat-6, %3 «get src="http://archive.apache.org/dist/tomcat/tomcat-7， 其 实 也 就 是 把 Tomcat 的 版 本 从 6 设置 为 7 而 已 。 
5) 修改 Maven 的 setting.xml 文 件 中 的 仓库 配置 ， 如 代码 清单 7-1 所 示 。 


代码 清单 7-1 Maven 仓 库 配置 


<mirror> 
«id»nexus-osc«/id» 
«name»OSChina Central«/name» 
«url»http://maven.oschina.net/content/groups/public/«/url» 
«mirrorOf»*«/mirrorOf» 

«/mirror» 


e i 
wa 本 书 中 使 用 是 开源 中 国 的 库 ， 如 果 读 者 在 编译 过 程 中 无 法 连接 远程 仓库 或 者 连接 缓慢 ， 可 修改 此 配置 文件 ， 更 换 其 他 的 仓库 镜像 或 使 用 本 地 仓库 。 


6) 以 上 准备 工作 就 绪 后 ， 就 可 以 进入 Oozie 目 录 ， 使 用 下 面 的 命令 进行 编译 。 命 令 如 下 : 


bin/ mkdistro.sh -DskipTests -Phadoop-2 -Dhadoop.auth.version-2.6.0 -Ddistcp. 
version-2.6.0 -Dspark.version-1.6.1 -Dpig.version-0.15.0 -Dtomcat.version-7.0.52 


ge 
Voy! E 如 果 在 编译 的 时 候 需要 加 入 HBase 或 者 Hive 支 持 ， 那么 需要 指明 匹配 的 版 本 。 同 时 ， 编 译 过 程 需要 下 载 大 量 依赖 Jar 包 ， 耗 时 比较 长 ， 请 耐心 等 待 。 编 译 成 功 最 后 会 在 /usr/local/oozie- 
4.2.0/disttoy/tateet 目 录 下 生成 编译 好 的 oozie-4.2.0-distto.tat.sz 压 缩 包 。 

ge g 


7.2.2 ”动手 实践 : OozieServer/clientf ee 


1. 服 务 器 配置 及 启动 


Oozie Server 配 置 其 实 就 是 Tomcat 的 配置 ， 其 配置 步 又 如 下 。 
1) 把 7.2.1 节 编译 好 的 压缩 包 oozie-4.2.0-distro.tar.gz 拷 贝 到 需要 部 署 Oozie 的 节点 上 ， 即 slave2 节 点 。 


2) 将 oozie-4.2.0-distro.tar.gz 解 压 到 合适 的 位 置 ， 本 书 的 位 置 是 /usr/local/Oozie。 命 令 如 下 : 


tar -zxf oozie-4.2.0-distro.tar.gz -C /usr/local/Oozie 


3) 修改 环境 变量 ， 在 /etc/profile 文 件 中 加 入 OOZIE_HOME 这 个 环境 变量 。 内 容 如 下 : 


OOZIE HOME-/usr/local/Oozie/oozie -4.2.0 
PATH-SPATH:fOOZIE HOME/bin 


export 
export 


Ct rt 


然后 执行 Source/etc/profile 命 令 ， 使 配置 即时 生效 。 


4) 在 oozie-4.2.0 目 录 下 新 建 libext 目 录 ， 并 把 下 载 好 的 ext-2.2.jar 拷 贝 到 该 目录 下 (该 文件 需要 提前 下 载 ， 并 且 版 本 一 定 要 是 2.2 的 ， 如 果 读 者 使 用 的 Oozie 的 版 本 不 是 4.2.0 的 ， 那 么 就 需要 自己 去 实验 
使 用 ext 的 哪个 版 本 ) 。 


拷贝 Hadoop 相 关 Jar 包 (Hadoop 根 目录 下 面 的 share/hadoop 目 录 下 面 的 Jar 以 及 share/hadoop/*/lib 目 录 下 面 的 Jar 包 ) 到 libext 目 录 下 。 命 令 如 下 : 


cp SHADOOP HOME/share/hadoop/*/*.jar /usr/local/Oozie/oozie-4.2.0/libext/ 
cp SHADOOP HOME/share/hadoop/*/lib/*.jar /usr/local/Oozie/oozie-4.2.0/libext/ 


注意 需要 把 Hadoop 与 Tomcat 冲 突 的 Jar 包 删 掉 或 者 进行 重 命名 。 命 令 如 下 : 


mv servlet-api-2.5.jar servlet-api-2.5.jar.bak 

mv jsp-api-2.1.jar jsp-api-2.1.jar.bak 

mv jasper-compiler-5.5.23.jar jasper-compiler-5.5.23.jar.bak 
mv jasper-runtime-5.5.23.jar jasper-runtime-5.5.23.jar.bak 


将 下 载 好 的 MySQL 驱 动 Jar 包 (参考 Hive 对 应 章节 ) 拷贝 到 libext 目 录 下 。 命 令 如 下 : 


cp mysql-connector-java-5.1.25-bin.jar /usr/local/Oozie/oozie-4.2.0/libext/ 


5) 配置 数据 库 连 接 ， 文 件 是 /usr/local/Oozie/oozie-4.2.0/conf/oozie-site.xml， 内 容 如 代码 清单 7-2 所 示 。 


代码 清单 7-2 ”oozie-site.xml 示 例文 件 


«property» 
«name»oozie.service.JPAService.create.db.schemac/name» 
«value»true«/value» 

</property> 

<property> 
«name»oozie.service.JPAService.jdbc.driver«/name» 
«value»com.mysql.jdbc.Driver«/value» 

</property> 

<property> 
<name>oozie.service.JPAService.jdbc.url</name> 
«value»jdbc:mysql://master:3306/00zie?createDatabaselfNotExist-true«c/value» 

</property> 

<property> 
«name»oozie.service.JPAService.jdbc.username«/name» 
«value»root«/value» 

</property> 

<property> 
«name»oozie.service.JPAService.jdbc.password«/name» 
«value»root«/value» 

</property> 

<property> 
«name»oozie.service.HadoopAccessorService.hadoop.configurations«/name» 
«value»*-/usr/local/hadoop-2.6.0/etc/hadoop«/value» 

</property> 


my 注 
nd: 最 后 一 个 配置 ， 配 置 Hadoop 所 在 的 路 径 ， 是 必需 的 ， 否 则 在 实际 运行 调度 的 时 候 ， 任 务 就 会 报 File/user/root/share/lib does not exist 的 错误 。 
6) 启动 前 的 初始 化 。 


@ 打 war 包 。 


bin/oozie-setup.sh prepare-war 


@ 初 始 化 数据 库 。 


bin/ooziedb.sh create -sqlfile oozie.sql -run 


执行 完成 后 ， 查 看 Oozie 数 据 库 ， 即 可 看 到 如 图 7-1 所 示 的 相关 表 ， 就 说 明 该 初始 化 步骤 执行 成 功 。 


4 3 oozie 
BUNDLE ACTIONS 
BUNDLE JOBS 
COORD ACTIONS 
COORD JOBS 
OOZIE SYS 


| OPENJPA SEQUENCE TA... 


SLA EVENTS 
SLA REGISTRATION 
. SLA SUMMARY 
VALIDATE CONN 
WF ACTIONS 
. WF JOBS 


图 7-1 oozie 数 据 库 初始 化 后 的 相关 表 
G@) 修 改 oozie-4.2.0/oozie-serverconf/server.Xxml 文 件 ， 注 释 掉 下 面 的 记录 : 


className-"org.apache.catalina.mbeans.ServerLifecycleListener" /»--» 


@@ 上 传 jar 包 。 


705.0 KiB 
32.0 KIB 
80.0 KiB 

128.0 KIB 

112.0 KiB 

1.0 KiB 
16.0 KiB 
32.0 KiB 
32.0 KiB 
96.0 KiB 
16.0 KiB 
64.0 KiB 
96.0 KiB 


7) 安装 配置 好 Oozie 后 ， 执 行 启 动 命令 ( 先 要 进入 $OOZIE_ HOME 目录 ) 。 命 令 如 下 : 


Oozie 正 确 启动 后 ， 在 浏览 器 中 即 可 看 到 该 Tomcat 工 程 的 首页 ， 如 图 7-2 所 示 。 其 端口 号 为 11000。 


© | D node3:1100 


9J/oozie/ 


Documentation 
Dozie Web Console 
Workflow Jobs Jobs 


Coordinator Jobs Bundie 


© AllJobs Active Jobs | Done Jobs | Custom Filter 7 
Job Id 
0000006-160328152241600-00zie-. . 
0000005-160328152441660-oozie-. . 
0000004-160328152441660-oozie-. . 
0000003-160328152441660-n07ie- 
0000002-160328152441660-o0zie- 
0000001-1603281522416060-00zie-. . 
0000000-160328152441660-oozie-. . 


Name 


1 
2 
3 
4 
5 
5 
7 


Oozie Server 安 装 后 在 安装 的 节点 上 面 即 可 使 用 Oozie Client 上 的 所 有 功能 


安装 步骤 如 下 : 


whitehouse-w.. 
whitehouse-w.. 


meap-reduce-wf 


meap-reduce-wf 
map-reduce-wf 


map-reduce-wf 


System Info 


Status 


FAILED 


KILLED 


FAILED 
FAILED 


SUCCE... 


SUCCE... 
map-reduce-wf KILLED 


Instrumentation Settings 


Created 


Mon, 
Mon, 


Mon, 


Mon 


Mon, 
Mon, 
Mon, 


(B0$ 


1) f£$OOZIE HOME 目 录 中 找到 Oozie 客 户 端 文件 oozie-client-4.2.0.tar.gz， 将 它 


2) 将 客户 端 压 缩 包 文件 解压 到 合适 的 位 置 ， 本 书 的 位 置 是 /usr/local/Oozie。 


tar zxvf oozie-client-4.2.0.tar.gz -C /usr/local/Oozie 


是 交 任 务 ) 。 


28 Mar 2016 09.13.2... 
28 Mar 2016 09:12:23... 
28 Mar 2016 08:45:5... 


28 Mar 2016 083:28:0 


28 Mar 2016 08:25:0... 
28 Mar 2016 08.23.4... 
28 Mar 2016 08:13:4... 


Started 


Mon, 
Mon, 
Mon, 
Mon, 
Mon, 
Mon, 
Mon, 


图 7-2 ”Oozie 工 程 首页 


如 果 想 要 在 其 他 节 


28 Mar 20 16 09.132. . 
28 Mar 2016 09:123. . 
28 Mar 2016 08:45:55. . 


28 Nar 2016 08:280 


28 Nar 2016 08:250. . 
28 Mar 20 16 08.23.4. . 
28 Mar 2016 08:13:4. . 


kx EtbfiFHOozieskf 


复制 到 需要 安装 Oozie 客 户 端的 节点 上 。 


命令 如 下 : 


Last Modified 


Mon, 
Mon, 
Mon, 
Mon, 
Mon, 
Mon, 
Mon, 


是 交 任 务 ， 那 么 


28 Mar 2015 09.144... 
28 Mar 2016 09:12:35... 
28 Mar 2018 08:47:0... 


28 Mar 2016 08:29:3 


28 Mar 2016 08:254... 
28 Mar 2016 08.23.4... 
28 Mar 2015 08:13:4... 


么 只 要 在 那些 


Server version [4.2.0] 


Ended 


Mon, 
Mon, 
Mon, 
Mon, 
Mon, 
Mon, 
Mon, 


28 Mar 2016 09:144... 
28 Mar 2016 09:12:3 

28 Mar 2016 08:47:0... 
28 Mar 2016 08:29:3 

28 Mar 2016 0825:4 .. 
28 Mar 2016 0823.4... 
28 Mar 2016 08:13:4... 


% 节 点 上 安装 Oozie Client 即 可 。 


3) 在 /etc/profile 中 添加 环境 变量 。 如 下 所 示 : 


E URL-http://slave2:11000/ooz 


ct ct 


ie 


OOZIE CL 


ENT HOME-/usr/local/Oozie/oozie-client-4.2.0 


4) 然后 就 可 以 在 客户 端 直 接 使 用 Oozie 命 令 


oozie job -oozie http://slave2:11000/ooz 


/data/installers/examples/apps/sqoop/job. 


AA 其 中 的 slave2 指 的 是 部 署 Oozie Setvet 所 在 的 机 器 


je -config 
properties -run 


来 操作 了 。 例 如 : 可 以 使 用 如 下 命令 来 提交 一 个 配置 好 的 任务 。 


- 4, 注 
- ^ Oozie 工 作 流 管 


代码 清单 7-3 core-site.Xxm| 添 加 Oozie 支 持 


«property» 
«name»hadoop.proxyuser. [USER] 
«value»*«/value» 

</property> 

<property> 
«name»hadoop.proxyuser. [USE 
<value>*</value> 

</property> 


.hosts« 


R].groups 


管理 是 基于 Hadoop 集 群 的 ， 所 以 在 使 用 Oozie 前 


/name> 


</name> 


需要 修改 Hadoop 集 群 的 core-site.xml 文 件 ， 添 加 内 容 如 代码 清单 7-3 所 示 。 


其 中 ，[USER] 需 要 改 为 启动 Oozie tomcat 的 用 户 ， 修 改 完 配 置 后 ， 需 要 重新 启动 集群 使 配置 生效 。 如 果 想 不 重启 集群 而 使 配置 生效 ， 需 要 在 Hadoop 集 群 执行 如 下 命令 : 
hdfs dfsadmin -refreshSuperUserGroupsConfiguration 


yarn rmadmin -refreshSuperUserGroupsConf 


iguration 


7.3 Oozie WorkFlow 实 践 


7.3.1 


完成 后 才能 


本 小 节 中 包含 了 MapReduce、Pig、Hive、Spark 的 Oozie 工 作 流 实验 ， 通 过 实验 ， 使 读者 更 好 地 理解 和 掌握 Oozie 的 各 种 任务 流 定义 及 使 用 。 


定义 及 提交 工作 流 


Oozie 定 义 了 一 种 基于 XML 的 hPDL (Hadoop Process Definition Language) 来 描述 工作 流 (WorkFlow) 的 有 向 无 环 图 。 在 工作 流 中 定义 了 如 下 两 种 节点 : 


- 控制 流 节 点 (Control Flow Nodes) : 用 于 定义 逻辑 判断 ， 从 而 运行 正确 的 工作 流 分 支 。 


:动作 节点 (Action Nodes) : 用 于 执行 任务 的 节点 。 


其 中 ， 控 制 流 节点 定义 了 流程 的 开始 (Start) 和 结束 (End) ， 以 及 控制 流程 的 执行 路 径 (Execution Path) ， 而 动作 节点 包括 Hadoop 任 务 、Oozie 子 流程 等 。 


Oozie 工 作 流 中 一 般 有 多 个 Action， 如 Hadoop MapReuce Job Hadoop Pig Job 等 ， 所 有 的 Action 以 有 向 无 环 图 的 模式 部 署 运行 。 
运行 下 一 个 Action， 如 图 7-3 所 示 。 


所 以 在 Action 的 运行 步骤 上 是 有 方向 的 ， 只 能 在 上 一 个 Action 运 


运行 


图 7-3 ”Oozie 工 作 流 有 向 无 环 图 示例 
如 果 要 定义 一 个 完整 的 Oozie 工 作 流 ， 那 么 通常 需要 编写 下 面 3 个 文件 。 
1) workflow.xml (EE) : 定义 工作 流 任务 (需要 放 到 HDFS 上 ) 。 
2) config-default.xml (可 选项 ) : 包含 所 有 工作 流 可 共享 的 属性 值 ， 可 选项 。 
3) job.properties (必需 ) : 针对 每 个 工作 流 的 属性 值 ( 放 在 客户 端 即 可 ) 。 


为 了 方便 读者 更 好 地 理解 上 面 的 描述 ， 这 里 介绍 一 个 大 家 都 比较 熟悉 的 Hadoop 界 的 “Hello World” 一 WordCount 的 例子 。 首 先 ， 其 工作 流程 图 如 图 7-4 所 示 。 


start ok 


| start | , map-reduce| 
 wordcount 


ERROR 


图 7-4  WordCount Oozie 工 作 流 
接着 ， 根 据 该 单词 计数 流程 ， 编 写 workflow.xm| 文 件 ， 其 代码 如 代码 清单 7-4 所 示 。 


代码 清单 7-4 _ WordCount workflow.xml 


«workflow-app name-'wordcount-wf' xmlns-"uri:oozie:workflow:0.1"» 
«start to-'wordcount'/» 
«action name-'wordcount'-» 

«map-reduce» 
«job-tracker»$(resourceManager]c/job-tracker» 
«name-node»$ (nameNode ) «/name-node» 

«configuration» 
«property» 
«name»mapred.mapper.class«/name» 
«value»org.myorg.WordCount.Mapperc/value» 
</property> 
<property> 
«name»mapred.reducer.class«/name» 
«value»org.myorg.WordCount.Reducec/value» 
</property> 
<property> 
<name>mapred. input .dir</name> 
<value>${inputDir}</value> 
</property> 
<property> 
<name>mapred. output .dir</name> 
<value>$ {outputDir}</value> 
</property> 
</configuration> 
</map-reduce> 
<ok to='end'/> 
<error to='end'/> 
</action> 
<kill name-'kill'» 
<message>Something went wrong: ${wf:errorCode ('wordcount') }</message> 
«/kill/» 
«end name-'end'/» 
«/workflow-app» 


这 个 XML 文件 就 是 对 图 7-4 的 描述 ， 如 果 读 者 熟悉 Hadoop 编 程 的 话 ， 那 么 对 上 面 的 内 容 理 解 起 来 应 该 不 难 。 当 然 ， 这 里 只 有 一 个 MapReduce 任 务 ， 试 想 如 果 一 个 系统 需要 执行 更 加 复杂 的 逻辑 ， 比 如 
对 应 很 多 个 MR， 那 么 就 需要 定义 其 他 类 似 的 动作 节点 (Action Nodes) 。 


最 后 就 是 编写 job.properties 文 件 了 ， 该 文件 直接 放 在 客户 端 即 可 ， 不 需要 传送 到 HDFS 上 。 本 例 中 ，job.properties 文 件 内 容 如 代码 清单 7-5 所 示 。 


代码 清单 7-5 WordCount job.properties 文 件 


# Hadoop ResourceManager 
resourceManager-master:8032 
4 Hadoop fs.default.name 
nameNode-hdfs : / /master:8020/ 
inputDir-/user/root/ 


A `+ 
Le s [11 » B mJ 
Ve | “#” 开 始 的 行为 注释 行 


在 Oozie 工 作 流 中 可 以 进行 参数 化 。 比 如 在 代码 清单 7-4 中 像 $finputDir}、${output-Dit} 之 类 的 变量 ， 这 些 变 量 就 可 以 通过 job.properties 配 置 对 应 参数 ， 这 样 在 启动 任务 时 就 会 将 这 些 配 置 参 数 传 入 工 
作 流 中 。 另 外 ， 在 workflow.xml 中 还 需要 配置 集群 的 参数 ， 如 <job-tracker>、<name-node> 等 ， 为 了 该 配置 文件 的 通用 性 ( 即 可 以 提交 任务 到 不 同 的 集群 中 ) ， 一 般 情 ) 
个 变量 ， 然 后 在 job.properties 中 进行 传 参 


这 些 参 类 


在 定义 好 相关 工作 流 文 件 后 ， 在 Oozie Client 中 直接 提交 任务 后 ， 即 可 执行 任务 。Oozie Client 提 交工 作 流 任务 非常 简单 ， 直 接 使 用 下 面 的 命令 就 可 以 提交 和 执行 工作 流 。 


oozie job -config job.properties -run 


"aro Veg 
8 如 果 要 查看 具体 命令 用 法 可 以 使 用 命令 : oozie help job. 


7.3.2 ”动手 实践 : MapReduce WorkFlow 定 义 及 调度 


本 小 节 介绍 MapReduce WorkFlow 的 定义 及 调度 ， 如 同 前 面 内 容 所 述 ， 我 们 需要 先 定义 工作 流 相关 文件 ， 然 后 再 通过 命令 行 提交 任务 。 本 次 实现 的 同样 是 单词 计数 ， 不 过 使 用 的 类 是 Hadoop 自 带 的 相 
天 类 。 实 验 内 容 详细 过 程 如 下 : 


1) 实验 前 先 确认 Oozie Server 已 经 正确 启动 。 
2) 定义 MapReduce WorkFlow 所 需要 的 配置 文件 ， 分 别 如 代码 清单 7-6、 代 码 清单 7-7 所 示 。 


代码 清单 7-6 MapReduce workflow.xml 


«workflow-app xmlns-"uri:oozie:workflow:0.2" name-"map-reduce-wf"» 
«start to-"mr-node"/» 
«action name-"mr-node"- 
«map-reduce» 
«job-tracker»$(resourceManager]c/job-tracker» 
«name-node»$ (nameNode ) «/name-node» 
«prepare» 
«delete path-"$ (nameNode]/user/S(wf:user()]/workflow/mr demo/output"/» 
«/prepare» 
«configuration» 
«property» 
«name»mapreduce.job.queuename«/name» 
«value»$ (queueName) «/value» 
</property> 
<property> 
<name>mapred.mapper .new-api</name> 
<value>true</value> 
</property> 
<property> 
<name>mapred. reducer .new-api</name> 
<value>true</value> 
</property> 
<property> 
<name>mapreduce.job.map.class</name> 
«value»org.apache.hadoop.examples.WordCount$Tokenizer-Mapper«/value» 
</property> 
<property> 
<name>mapreduce.job.reduce.class</name> 
<value>org.apache .hadoop.examples .WordCount$IntSum-Reducer</value> 
</property> 
<property> 
<name>mapreduce.job.inputformat.class</name> 
«value»org.apache.hadoop.mapreduce.lib.input.TextInput-Format«/value» 


</property> 
<property> 
<name>mapreduce.job.outputformat.class</name> 
«value»org.apache.hadoop.mapreduce.lib.output.TextOutputFormat«/value» 
</property> 
<property> 
«name»mapreduce.job.output.key.class«/name» 
«value»org.apache.hadoop.io.Text«/value» 


in 


- 


</property> 
<property> 
<name>mapreduce.job.output.value.class</name> 
<value>org.apache.hadoop.io.IntWritable</value> 
</property> 
<property> 
<name>mapreduce.job.reduces</name> 
<value>$ {reducer}</value> 
</property> 
<property> 
<name>mapreduce.input.fileinputformat.inputdir</name> 
<value>$ {input}</value> 
</property> 
<property> 
<name>mapreduce.output.fileoutputformat.outputdir</name> 
«value»/user/$[(wf:user())/workflow/mr demo/output</value> 
</property> 
</configuration> 
«/map-reduce» 
«ok to-"end"/» 
«error to-"fail"/» 
«/action» 
«kill name-2"fail"» 
«message»Map/Reduce failed, error message [$(wf:errorMessage (wf:lastErrorNode()))]«/message» 
«/kill» 
«end name-"end"/» 
«/workflow-app» 


代码 清单 7-7 MapReduce job.properties 


# work folder 
oozie.wf.application.path-hdfs://slave2:8020/user/root/workflow/mr demo/wf 
#Hadoop ResourceManager 
resourceManager-master:8032 
dHadoop fs.default.name 
nameNode-hdfs : / /master :8020/ 
dHadoop mapred.queue.name 
queueName-default 

# other properties 

reducer-2 

input-/user/root/mr words.txt 


3) 在 Oozie 客 户 端 目录 (如 /root/oozie demos/mr) 下 建立 workflow.xml 和 job.pro-perties 文 件 ， 其 内 容 如 代码 清单 7-6、 代 码 清 单 7-7 所 示 。 


4) 验证 workflow.xml 的 格式 正确 性 。 命 令 如 下 : 


oozie validate workflow.xml 


如 验证 成 功 ， 则 会 出 现 “Valid workflok-app” 的 提示 字样 ， 否 则 提示 对 应 的 错误 。 


5) 在 HDFS 上 新 建 目录 : /user/root/workflow/mr_demo/wf (注意 需要 和 job.properties 中 的 oozie.wf.application.path 属 性 值 对 应 ) ， 并 且 上 传经 过 验证 的 workflow.xml 文 件 到 此 目录 。 上 传 完 成 


查看 上 传 的 文件 : 


[root@master mr]# hadoop fs -ls /user/root/workflow/mr demo/wf 
Found 1 items 
-rw-r--r-- 1 root supergroup 2625 2016-03-28 16:07 /user/root/workflow/mr demo/wf/workflow.xml 


6) 上 传 文件 oozie/data/mr words.txt 到 HDFS 的 /uservroot/mr words.txt 目 录 (此 目录 和 job.properties 中 的 input 对 应 ) 。 


7) 运行 该 工作 流 任务 。 


[root@master mr]# oozie job -config job.properties -run 
job: 0000002-160328152441660-o0ozie-root-W 


m8 
RQ pu 

t9 E 提交 任务 后 ， 就 会 有 一 个 Job ID 打印 ， 如 上 所 示 的 “0000002-160328152441660-oozie-tootW”。 
8) 查看 任务 状态 。 


@@ 使 用 命令 oozie job-info 查 询 (需要 提供 Job ID) 。 


[root@master mr]# oozie job -info 0000002-160328152441660-o0zie-root-W 
Job ID : 0000002-160328152441660-oozie-root-W 


Workflow Name : map-reduce-wf 
App Path : hdfs://slave2:8020/user/root/workflow/mr demo/wf 
Status : RUNNING 
Run <0 
User 5 root 
Group = 
Created : 2016-03-28 08:25 GMT 
Started : 2016-03-28 08:25 GMT 
Last Modified : 2016-03-28 08:25 GMT 
Ended pos 
CoordAction ID: - 
Actions 
D Status 
xt ID Ext Status Err Code 
0000002-160328152441660-0o0zie-root-WQ:start: OK 


0000002-160328152441660-0o0zie-root-Wmr-node 
RUNNING job 1459135863039 0001 RUNNING - 


@ 在 浏览 器 中 访问 http://slave2: 11000/oozie 即 可 查看 到 所 有 的 任务 ， 找 到 对 应 ID 的 任务 ， 单 击 即 可 查看 该 任务 ， 如 图 7-5 所 示 。 


Job (Name: map-reduce-wf / JobId: 0000003-160328152441660-oozie-root-W) 


Job Info | Job Definition Job Configuration Job Log Job Eror Log Job Audit Log Job DAG 


Job Id: 0000003-160328152441660-oozie-root-W 
Name: map-reduce-wf 
App Path: hdfs://node1:8020/user/root/workflow/mr. demo/wf 
Run: 0 
Status: RUNNING 
User: root 
Group: 
Parent Coord: 
Create Time: 28 Mar 2016 08:28:00 GMT 
Start Time: 28 Mar 2016 08:28:00 GMT 
Last Modified: 28 Mar 2016 08:28:25 GMT 
End Time: 


Actions 


Action Id Name Type Status Transition StartTime EndTime 
1 0000003-160328152441660-o0zie-root-W(Q:start start START OK mr-node Mon, 28 Mar 2016 08:28:0... Mon, 28 Mar 2016 08:28:0 
2  0000003-160328152441660-00zie-root-W(9mr-node mr-node map-reduce RUNNING Mon, 28 Mar 2016 0828/0... 


图 7-5 “MapReduce 单 一 任务 监控 信息 
9) 查看 单词 计数 的 输出 结果 : 在 浏览 器 或 终端 中 直接 查看 HDFS 目 录 /useVroot/workflow/mr demo/output (此 目录 在 workflow.xml 中 配置 ) ， 即 可 看 到 单词 计数 的 输出 结果 。 
思考 : 
1) 查看 hadoop job 对 应 的 记录 ， 查 看 任务 名 是 什么 ? 


2) 查看 hadoop job 对 应 记录 ， 查 看 任务 reducer 个 数 是 多 少 ， 为 什么 ? 
7.3.3 ”动手 实践 : Pig WorkFlow 定 义 及 调度 


本 小 节 介 绍 Pig WorkFlow 的 定义 及 调度 ， 主 要 是 指使 用 Oozie 来 执行 Pig 脚 本 的 过 程 。 在 执行 调度 前 ， 需 要 先 定义 好 Pig 脚 本 ， 该 Pig 脚 本 已 经 预先 写 好 ， 读 者 可 以 直接 参考 即 可 。 该 Pig 脚 本 完成 的 任务 
是 读 取 一 个 数据 ， 该 数据 中 有 年 龄 字段 ， 需 要 根据 年 龄 的 不 同 来 进行 数据 过 滤 。 实 验 内 容 详 细 过 程 如 下 : 

1) 实验 前 先 确 认 Oozie Server 已 经 正确 启动 。 

2) 参考 代码 清单 7-8、 代 码 清单 7-9、 代 码 清单 7-10 编 写 文 件 workflow.xml、job.properties、pig job.pig 文 件 ， 并 上 传 至 Oozie 客 户 端 目录 ， 如 /root/oozie_ demos/pig 目 录 。 


代码 清单 7-8 Pig Job workflow.xml 


«workflow-app xmlns-"uri:oozie:workflow:0.2" 
name-"whitehouse-workflow-pig"» 
«start to-"pig job"/» 
«action name-"pig job"» 
«pig» T 
<job-tracker>$ {resourceManager}</job-tracker> 
«name-node»$ {nameNode}</name-node> 
<prepare> 
<delete path="/user/root/workflow/pig demo/output"/> 
</prepare> 
<script>pig job.pig</script> 
<param>INPUT=$ {input }</param> 
</pig> 
<ok to-"end"/» 
«error to-"fail"/» 
«/action» 
Xkill name-2"fail"- 
«message»Job failed, error 
message[S(wf:errorMessage (wf:lastErrorNode ()))] 
«/message» 
«/kill» 
«end name-"end"/» 
«/workflow-app» 


代码 清单 7-9 Pig Job job.properties 


oozie.wf.application.path-hdfs://slave2:8020/user/root/workflow/pig demo/wf 
oozie.use.system.libpath-true 

#Hadoop ResourceManager 

resourceManager-master:8032 

dHadoop fs.default.name 

nameNode-hdfs : / /master : 8020/ 

dHadoop mapred.queue.name 

queueName-default 

f other properties 

input-/user/root/bank.csv 


代码 清单 7-10 Pig Job pig job.pig 脚 本 


bank data- LOAD 'SINPUT' USING PigStorage(';') AS 

(age:int, job:chararray, marital:chararray,education:chararray, 
default:chararray,balance:int,housing:chararray,loan:chararray, 
contact:chararray,day:int,month:chararray,duration:int,campaign:int, 

pdays:int,previous:int,poutcom:chararray, y:chararray); 

age gt 30 - FILTER bank data BY age »- 30; 
store age gt 30 into '/user/root/workflow/pig demo/output' using PigStorage(','); 


3) 在 Oozie 客 户 端 验证 workflow.xml 的 正确 性 ， 参 考 上 节 (一 般 情况 下 是 需要 读者 进行 验证 的 ， 如 果 可 以 确保 该 文件 的 正确 性 ， 那 么 可 以 不 用 验证 ) 。 

4) 在 HDFS 上 新 建 /usewroot/workflow/pig demo/wfElis, 3fEL Ef&workflow.xml, pig job.pig 文 件 到 此 目录 (注意 ， 这 里 需要 把 Pig 脚 本 也 上 传 到 HDFS) 。 
5) 上 传 文件 oozie/data/bank.csv 到 HDFS 目 录 /user/root/bank.csv 目 录 (该 文件 为 输入 数据 ， 即 需要 先 准备 好 输入 数据 ) 。 

6) 运行 oozie job 命令 ， 提 交 任 务 ， 并 查看 对 应 的 任务 状态 及 输出 结果 (具体 可 以 参考 上 节 ) 。 

思考 : 

1) 查看 hadoop 日 志 ， 一 共有 多 少 个 任务 (ob) 被 执行 了 ? 

2) 分 析 任 务 执行 的 过 程 。 


3 


— 


如 果 要 传递 参数 到 pig 脚 本 ， 应 该 如 何 做 ? 


7.3.4 动手 实践 : Hive WorkFlow 定 义 及 调度 


本 小 节 介绍 Hive WorkFlow 的 定义 及 调度 ， 主 要 是 指使 用 Oozie 来 执行 Hive 脚 本 的 过 程 。 在 执行 调度 前 ， 需 要 先 定义 好 Hive 脚 本 (该 Hive 脚 本 已 经 预先 写 好 ， 读 者 直接 参考 即 可 ) 。 该 Hive 脚 本 完成 的 
任务 和 上 节 中 Pig 脚 本 完成 的 任务 是 一 样 的 ， 不 过 其 先 定义 了 一 个 Hive 表 ， 然 后 从 输入 数据 中 读 取 输 入 数据 ， 采 用 Selecthttp://www.hzcourse.com/resource/readBook? 
path=/openresources/teach ebook/uncompressed/16328/OEBPS/Text/...Wherehttp://www.hzcourse.com/resource/readBook? 


path=/openresources/teach ebook/uncompressed/16328/OEBPS/Text/... 的 查询 来 获取 对 应 条 件 的 数据 。 实 验 内 容 详 细 过 程 如 下 : 
1) 确保 Oozie Server 已 经 启动 。 
2) 参考 代码 清单 7-11、 代 码 清单 7-12、 代 码 清单 7-13 编 写 对 应 文件 ， 并 上 传 至 Oozie 客 户 端 目录 ， 如 /root/oozie_demos/hive 目 录 。 


代码 清单 7-11 Hive workflow.xml 


«workflow-app xmlns-"uri:oozie:workflow:0.2" name-"hive-wf"» 
«start to-"hive-node"/» 
«action name-"hive-node"» 

«hive xmlns-"uri:oozie:hive-action:0.2"» 
«job-tracker»$(resourceManager]c«/job-tracker» 
«name-node»$ (nameNode ) «/name-node» 

«prepare» 

«delete path-e"$[(output]/hive"/» 

«mkdir path-"$[output]"/» 

«/prepare» 
«configuration» 

«property» 
«name»mapred.job.queue.name«/name» 
«value»$ (queueName] €«/value» 

</property> 
</configuration> 
<script>script.hive</script> 
<param>INPUT=$ {input }</param> 
<param>OUTPUT=$ {output }/hive</param> 
<param>maxAge=$ (maxAge]) «/param» 
«/hive» 

«ok to-"end"/» 

«error to-"fail"/» 

«/action» 
«kill name-2"fail"- 

«message»Hive failed, error message[S$(wf:errorMessage (wf:lastErrorNode ())]]«/message» 
«/kill» 
«end name-"end"/» 

«/workflow-app» 


代码 清单 7-12 Hive job.properties 


# work folder 

oozie.wf.application.path-$ (nameNode]/user/$(user.name]/workflow/hive demo/wf 
# classpath E 
oozie.use.system.libpath=true 

# hadoop namenode 

nameNode-hdfs: //master:8020 

# hadoop resourceManager 

resourceManager-master:8032 

queueName-default 

#user properties 

maxAge-30 

input-/user/root/bank.csv 

output-/user/root/workflow/hive demo/output 


代码 清单 7-13 Hive script.hive 脚 本 


DROP TABLE IF EXISTS bank; 
CREATE TABLE bank( 
age int, 
job string, 
marital string,education string, 
default string,balance int,housing string,loan string, 
contact string,day int,month string,duration int,campaign int, 
pdays int,previous int,poutcom string,y string 
ks 
ROW FORMAT DELIMITED FIELDS TERMINATED BY 'VN073' 
STORED AS TEXTFILE; 
LOAD DATA INPATH 'S(INPUT)' INTO TABLE bank; 
NSERT OVERWRITE DIRECTORY 'S(OUTPUT)' SELECT * FROM bank where age > '$(maxAge]'; 


3) 在 Oozie 客 户 端 验证 workflow.xml 的 正确 性 ， 参 考 MapReduce 对 应 章节 。 

4) 在 HDFS 上 新 建 /user/root/workflow/hive_demo/wf 目 录 ， 并 且 上 传 workflow.xml、script.hive 文 件 到 此 目录 。 

5) 上 传输 入 文件 bank.csv 到 HDFS 目 录 /user/root/bank.csv 目 录 。 

6) 参考 MapReduce 对 应 章节 ， 运 行 oozie job 命令 ， 提 交 任 务 并 查询 任务 状态 及 输出 结果 (注意 这 里 的 输出 结果 不 仅 包 含 HDFS 上 面 的 输出 目录 ， 还 应 该 包括 Hive 中 的 表 及 其 表 数 据 ) 。 
思考 : 


1) 一 共 启 动 了 多 少 个 Hadoop job? 


2) 查看 具体 Hadoop 日 志 ， 并 分 析 Oozie 调 度 Hive 的 流程 。 
7.3.5 ”动手 实践 : Spark WorkFlow 定 义 及 调度 


本 小 节 介绍 Spark WorkFlow 的 定义 及 调度 ， 完 成 的 任务 是 文件 拷贝 。 在 相关 文件 定义 中 类 似 MapReduce 任 务 中 的 定义 ， 只 是 其 中 用 到 的 Jar 包 由 于 是 第 三 方 提供 的 (当然 也 可 以 使 用 读者 自己 定义 
的 ) ， 所 以 需要 把 Jar 包 上 传 到 HDFS 的 资源 目录 (资源 目录 指 的 就 是 job.properties 中 jarPath 配 置 的 目录 ) ， 以 供 使 用 。 实 验 内 容 详细 过 程 如 下 : 
1) 确保 Oozie Server、Spark 集 群 、Hadoop 集 群 已 经 启动 。 


2) 参考 编写 对 应 文件 ， 并 上 传 至 Oozie 客 户 端 目录 ， 如 /root/oozie_ demos/spark 目 录 。 


代码 清单 7-14 Spark workflow.xml 


«workflow-app xmlns-'uri:oozie:workflow:0.5' name-'SparkFileCopy'» 
«start to-'spark-node' /> 
«action name-'spark-node'» 
«spark xmlns-"uri:oozie:spark-action:0.1"» 
«job-tracker»$(resourceManager]c/job-tracker» 
«name-node»$ (nameNode ) «/name-node» 


«prepare» 

«delete path="$ {output}"/> 
</prepare> 
<master>$ {master}</master> 


«mode»$ {sparkMode}</mode> 
<name>Spark-FileCopy</name> 
<class>org.apache.oozie.example.SparkFileCopy</class> 
<jar>${jarPath}</jar> 
<arg>${input}</arg> 
<arg>$ {output }</arg> 
</spark> 
<ok to="end" /> 
<error to="fail" /> 
</action> 
<kill name=" fail"> 
<message>Workflow failed, error 
message [S (wf:errorMessage (wf:lastErrorNode ())]] 
«/message» 
«/kill» 
«end name-'end' /» 
«/workflow-app» 


代码 清单 7-15 Spark job.properties 


oozie.wf.application.path-$ (nameNode)/user/$(user.name)/workflow/spark demo/wf 
nameNode-hdfs: //master:8020 

resourceManager-master:8032 

master-spark://master:6066 

SsparkMode-cluster 

queueName-default 
oozie.use.system.libpath-true 

input-/user/root/bank.csv 

output-/user/root/workflow/spark demo/output 

jarPath-$ (nameNode] /user/root/workflow/spark demo/lib/oozie-examples.jar 


9 虽然 这 里 配置 使 用 了 SpatKk 自 带 的 资源 管理 器 ， 但 是 还 是 需要 配置 Resoutce-Managef， 不 然 任 务 无 法 运行 。 

3) 在 Oozie 客 户 端 验证 workflow.xm| 的 正确 性 ， 参 考 MapReduce 对 应 章节 。 

4) 在 HDFS 上 新 建 /usewVroot/workflow/spark demo/wf 目 录 ， 并 且 上 传 workflow.xml、lib/oozie-exmaple.jar 文 件 到 此 目录 (其 中 的 oozie-example.jar 就 是 第 三 方 Jar 包 ) 。 
5) 上 传输 入 文件 bank.csv 到 HDFS 目 录 /user/root/bank.csv 目 录 。 

6) 运行 oozie jobáp e, 提交 任务 并 查看 任务 状态 及 输出 结果 (输出 结果 就 是 在 /user/root/workflow/spark_demo/output 目 录 新 生成 bank.csv 文 件 ， 即 执行 了 文件 拷贝 )。 
RE: 

1) 是 否 可 以 不 启动 Hadoop 集 群 ? 需要 启动 Spark 集 群 吗 ? 

2) Hadoop job 是 否 可 以 看 到 日 志 ? 应 该 去 哪 查 看 日 志 ? 


3) 查看 具体 Spark 日 志 ， 并 进行 分 析 。 
7.3.6 动手 实践 : Spark On Yarn 定 义 及 调度 


本 节 实 验 与 上 一 小 节 内 容 非 常 相似 ， 只 是 这 里 提交 任务 的 资源 管理 器 为 Hadoop 的 YARN， 实 验 步骤 参考 上 一 小 节 即 可 。 这 里 给 出 主要 的 配置 文件 如 代码 清单 7-16、 代 码 清单 7-17 所 示 。 


代码 清单 7-16 Spark On YARN workflow.xml 


«workflow-app xmlns-'uri:oozie:workflow:0.5' name-'SparkFileCopy on yarn'» 
«start to-'spark-node' /> 
«action name-'spark-node'» 
«spark xmlns-"uri:oozie:spark-action:0.1"» 
«job-tracker»$ (resourceManager]«/job-tracker» 
«name-node»$ (nameNode ) «/name-node» 


«prepare» 

«delete path="$ {output}"/> 
</prepare> 
<master>$ {master}</master> 


<name>Spark-FileCopy-on-yarn</name> 
«class»org.apache.oozie.example.SparkFileCopy«/class» 
«jar»$(jarPath]«/jar» 


«spark-opts»--conf spark.yarn.historyServer.address-http://node2:18080 --conf spark.eventLog.dir-hdfs://slave2:8020/spark-log --conf spark.eventLog.enabled-true«c/sr 
«arg»$(input]«/arg» 
<arg>$ {output}</arg> 


</spark> 

«ok to-"end" /> 

«error to-2"fail" /> 
«/action» 
Xkill name-"fail"» 
«message»Workflow failed, error 

message [S (wf:errorMessage (wf:lastErrorNode ())]] 
«/message» 

«/kill» 

«end name-'end' /» 
«/workflow-app» 


代码 清单 7-17 Spark On YARN job.properties 


oozie.wf.application.path-$ (nameNodej]/user/$(user.name]/workflow/spark on yarn demo 
nameNode-hdfs : / /master:8020 m E 
resourceManager=master:8032 

master=yarn-cluster 

queueName=default 
oozie.use.system.libpath=true 

input=/user/root/bank.csv 

output=/user/root/workflow/spark on yarn demo/output 

jarPath-$ (nameNode]/user/root/workflow/spark on yarn demo/lib/oozie-examples.jar 


1) 是 否 可 以 不 启动 Hadoop 集 群 ? 需要 启动 Spark 集 群 吗 ? 


2) 这 种 调度 方式 和 上 节 有 和 异同 ? 


7.4 Oozie Coordinator 实 践 


经 过 7.3 节 实战 的 内 容 ， 相 信 读 者 对 如 何 定义 及 提交 运行 Oozie 工 作 流 有 一 个 很 直观 的 认识 ， 加 上 动手 练习 ， 对 其 更 有 一 个 深入 的 理解 。 那 么 读者 有 没有 发 现 一 个 问题 : 我 们 上 面 的 任务 都 是 手动 在 终端 
提交 运行 的 ， 难 道 我 们 每 次 运行 都 需要 手动 ? 试想 如 果 现 在 我 们 有 一 个 工作 流 Job， 需 要 每 天 半夜 00: 00 启 动 运行 ， 能 够 想到 的 方法 就 是 通过 写 一 个 定时 脚本 来 调度 程序 运行 。 如 果 我 们 有 多 个 工作 流 Job， 
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Oozie Coordinator (调度 器 ) 就 是 解决 这 个 问题 的 方法 。Oozie Coordinator 是 Oozie 的 另 一 个 重要 组 件 ， 专 门 用 于 定义 可 调度 的 Oozie 工 作 流 。 调 度 器 可 以 为 所 有 的 Oozie 工 作 流 指定 触发 时 间 和 频 
率 (或 触发 条 件 ) ， 还 可 以 配置 数据 集 、 并 发 数 等 。 一 个 Coordinator Job 包 含 在 工作 流 外 部 设置 执行 周期 和 频率 的 语义 ， 类 似 于 在 工作 流 外 部 增加 了 一 个 协调 器 来 管理 这 些 工 作 流 的 工作 流 任务 的 运行 。 


Oozie Coordinator 调 度 任务 与 OQozie 工 作 流 类 似 ， 需 要 定义 如 下 两 个 文件 。 

1) coordinator.xml: 调度 任务 定义 文件 。 

2) coordinator.properties: 定义 任务 的 属性 (类 似 job.properties) 。 

Oozie Coordinator 可 以 使 用 两 种 类 型 调度 ， 分 别 是 : 基于 时 间 调 度 、 基 于 数据 有 效 性 调度 。 下 面 我 们 来 看 这 两 种 类 型 的 调度 是 如 实现 的 。 
7.4.1 动手 实践 : 基于 时 间 调 度 

基于 时 间 调 度 ， 顾 名 思 义 就 是 定时 来 执行 Oozie 工 作 流 。 本 节 完 成 的 任务 就 是 直接 定时 完成 7.3.2 的 Oozie 工 作 流 任务 。 具 体 实 验 步骤 如 下 : 

进行 实验 前 ， 请 确保 Oozie Server 已 经 启动 ， 同 时 MapReduce Workflow 实 验 已 经 完成 (MapReduce 工 作 流 实验 是 此 实验 的 基础 ) 。 


1) 参考 代码 清单 7-18、 代 码 清单 7-19 编 写 对 应 文件 ， 并 上 传 至 Oozie 客 户 端 目 录 ， 如 /root/oozie demos/coordinator time 目 录 。 


代码 清单 7-18 ”基于 时 间 调 度 coordinator.xml 


<coordinator-app name="cron-coord" frequency="${coord:minutes (5)}" start="${start}" end="$ {end}" timezone-"UTC" 
xmlns="uri:oozie:coordinator:0.2"> 
<action> 
<workflow> 
«app-path»$ (workflowAppUri])«/app-path» 
«configuration» 

«property» 
«name»resourceManager«/name» 
«value»$(resourceManager]«/value» 

</property> 

<property> 
<name>nameNode</name> 
«value»$ {nameNode}</value> 

</property> 

<property> 
<name>queueName</name> 
<value>$ {queueName }</value> 

</property> 


<property> 
<name>reducer</name> 
<value>$ {reducer}</value> 
</property> 


<property> 
<name>input</name> 
<value>${input}</value> 

</property> 
</configuration> 
</workflow> 
</action> 
</coordinator-app> 


其 中 ， 参 数 frequency="${coord: minutes (5) } "表示 任务 每 5 分 钟 执行 一 次 。 表 7-2 中 例 举 了 参数 frequency 其 他 的 一 些 可 选 值 。 


表 7-2 frequency 可 选 值 


frequency-"5" hj 5 分 钟 运行 一 次 
frequency-"60" 每 小 时 运行 一 次 
frequency="1440" 或 者 frequency-"$ (coord:days(1)] " 每 天 运行 一 次 
frequency="$ {coord:days(7)}" 每 周 运行 一 次 


frequency-"$ (coord:months(1)] " 每 月 运行 一 次 


参数 frequency 的 定义 ， 还 有 一 种 cron 表 达 式 的 写法 ,例如 “frequency="0/5****"”,， 


这 种 表达 式 不 是 本 书 内 容 ， 请 读者 参阅 其 他 资料 。 


代码 清单 7-19 ”基于 时 间 调 度 coordinator.properties 


oozie.coord.application.path-$ {nameNode}/user/$ {user.name}/workflow/coordinator time/wf 


# coordinator properties 


nameNode=hdfs://master:8020 
resourceManager-master:8032 


queueName-default 
start-2016-03-29T107:06Z 


end-20 


16-03-29T07:162 


# workflow properties 


workflowAppUri-$ (nameNode)/user/$(user.name]/workflow/mr demo/wf 


reducer-2 


input-/user/root/mr words.txt 


2) 在 Oozie 客 户 端 验证 coordinator.xm| 的 正确 性 。 


3) 在 HDFS 上 新 建 /user/root/workflow/coordinator time/wf 目 录 ， 并 且 上 传 coordina-torxml 文 件 到 此 目录 (注意 上 传 到 HDFS 的 文件 命名 必须 为 coordinator.xml) 。 


4) 参考 前 面 的 实践 任务 分 析 并 解释 coordinator.properties 文 件 中 各 个 参数 意义 ， 分 析 任 务 运行 的 预期 结果 。 


5) 运行 oozie job 命令 ， 提 交 任 务 (这 里 的 提交 只 需 修改 -config 的 参数 为 coordinator.properties 即 可 ) ， 查 看 任务 状态 以 及 输出 结果 ， 其 结果 一 般 类 似 图 7-6、 图 7-7 所 示 的 截图 。 


Job (Name: cron-coord / coordJobId: 0000010-1603 29105129518-oozie-root-C) 


Coord Job Info 


Job Id: 
Name: 
Status: 
User: 
Group: 
Frequency: 
Unit: 

Parent Bundle: 
Start Time: 
Next Matd : 
End Time: 
Pause Time: 


Concurrency: 


Actions 


Action Id 


1 0000010-160329105129518-o0zie-root-C (22 
2 0000010-160329105129518-oozie-root-C (21 


Job ID 


App Path 
Status 
Start Time 
End Time 
Pause Time 
Concurrency 


0000010-160329105129518-oozie-root-C01 


0000010-160329105129518-oozie-root-C(2 


思考 : 


Coord Job Definition Coord Job Configuration Coord Job Log Coord Error Log Coord Audit Log Coord Action Reruns 


0000010-160329105129518-o0zie-root-C 
cron-coord 
RUNNING 


root 


0j5**** 


CRON 


Tue, 29 Mar 2016 07:06:00 GMT 
Tue, 29 Mar 2016 07:20:00 GMT 
Tue, 29 Mar 2016 07:16:00 GMT 


Last Mod Time 
Tue, 29 Mar 2016 07:10:22... 
Tue, 29 Mar 2016 07:11:45... 


Nominal Time 
Tue, 29 Mar 2016 07:15:00... 
Tue, 29 Mar 2016 07:10:00... 


Created Time 
Tue, 29 Mar 2016 07:10:22... 
Tue, 29 Mar 2016 07:10:22... 


Status Ext Id Error Code 
WAITING 
SUCCEE.. 40000011-160329105129518-oozie-... 


图 7-6 ”基于 Oozie Cootdinatot 任 务 


0000010-18032910512$8518-oozie-roct-C 


cron-ccord 
: hd£s://node1:8020/user/root/workflow/coordinator time/wf 
RUNNING 
2016-03-29 07:06 GMT 
2016-03-29 07:16 GMT 


Nominal Time 


RUNNING 2016-03-29 07:10 GMT 2016-03-29 07:10 GMT 


WAITING 2016-03-29 07:10 GMT 2016-03-29 07:15 GMT 


图 7-7 基于 Oozie Coordinatot 任 务 状 态 


1) 时 间 设 置 是 以 谁 的 时 间 为 准 (是 服务 器 的 时 间 还 是 客户 端的 时 间 ) ? 


2) 基于 时 间 的 调度 任务 其 逻辑 是 怎样 的 ”请 做 简要 分 析 。 


在 上 一 节 中 已 经 分 析 了 基于 时 间 的 调度 ， 那 么 有 没有 其 他 的 调度 方式 呢 ? 比如 有 些 情况 下 可 能 不 知道 任务 运行 的 确切 时 间 ， 但 是 需要 根据 前 一 个 任务 运行 的 结果 来 执行 调度 ， 
效 性 的 调度 。 该 调度 方式 使 用 一 个 HDFS 目 录 ， 是 否 运行 Oozie 的 工作 流 依赖 于 该 目录 中 是 否 有 数据 ， 如 果 有 ， 那 么 就 执行 任务 。 


7.4.2 动手 实践 : 基于 数据 有 效 性 调度 


这 时 就 要 使 用 基于 数据 有 


确保 Oozie Server 已 经 启动 ， 同 时 MapReduce Workflow 实 验 已 经 完成 ， 该 实验 步骤 描述 如 下 。 


1) 参考 代码 清单 7-20、 代 码 清单 7-21 编 写 对 应 文件 ， 并 上 传 至 Oozie 客 户 端 目录 ， 如 /root/oozie demos/coordinator data 目 录 。 


代码 清单 7-20 ”基于 数据 有 效 性 调度 coordinator.xml 文 件 


<coordinator-app name-"file check" 


frequency-"$(coord:days (1))" start="${start}" end="${end}" timezone-"UTC" 


xmlns-"uri:oozie:coordinator:0.1"» 


«datasets» 


«dataset name-"logs" 


frequency-"$(frequency]" 


initial-instance-"$[initial time)" timezone="UTC"> 
«uri-template > 
hdfs://slave2:8020/user/root/data validate 
«/uri-template» 
«/dataset» 
«/datasets» 
«input-events» 
«data-in name-"input" dataset-"logs"» 
«instance»$(instance timej«/instance» 
«/data-in» v 
«/input-events» 
«action» 
«workflow» 
«app-path»$ (workflowAppUri])«/app-path» 
«configuration» 

«property» 
«name»resourceManager«/name» 
«value»$(resourceManager]«/value» 

</property> 

<property> 
<name>nameNode</name> 
«value»$ {nameNode}</value> 
</property> 
<property> 
<name>queueName</name> 
<value>$ {queueName}</value> 
</property> 
<property> 
<name>reducer</name> 
<value>$ {reducer}</value> 
</property> 
<property> 
<name>input</name> 
<value>$ {input}</value> 
</property> 
</configuration> 
</workflow> 
</action> 
</coordinator-app> 


代码 清单 7-21 基于 数据 有 效 性 调度 coordinator.properties 文 件 


oozie.coord.application.path-$ (nameNode)/user/$(user.name)/workflow/coordinator data/wf 
# coordinator properties 
nameNode-hdfs: //master:8020 
resourceManager-master:8032 
queueName-default 
start-2016-04-05T07:412 
end-2016-04-11T07:052 
frequency-20 
initial time-2016-04-05T07:432 
instance time-2016-04-05T07:432 
# workflow properties 
workflowAppUri-$ (nameNode)/user/$(user.name)/workflow/mr demo/wf 
reducer-1 
input-/user/root/mr words.txt 


2) 在 Oozie 客 户 端 验证 coordinator.xml 的 正确 性 ， 参 考 MapReduce 相 关 章 节 。 
3) 在 HDFS 上 新 建 /user/root/workflow/coordinator_data/wf 目 录 ， 并 县 上 传 coordina-tor.xml 文 件 到 此 目录 (注意 上 传 到 HDFS 的 文件 命名 必须 为 coordinator.xml) 。 


4) 解释 coordinator.properties 文 件 参数 ， 同 时 ， 修 改 对 应 参数 (这 里 需要 修改 开始 的 时 间 ， 这 里 不 是 基于 时 间 的 调度 ， 但 是 什么 时 候 开始 运行 HDFS 目 录 检 查 的 时 间 以 及 检查 的 频率 却 需要 指定 ) ， 
根据 对 应 的 参数 ， 分 析 任 务 运行 的 预期 结果 。 


5) 运行 oozie job 命令 ， 提 交 任 务 (这 里 的 提交 只 需 修改 -config 的 参数 为 coordinator.properties 即 可 ) 并 查看 任务 状态 及 子 任务 状态 。 

6) 触发 子 任务 : 本 地 新 建 SUCCESS 文 件 并 上 传 到 HDFS 目 录 : /user/root/data validate/， 再 次 查看 任务 状态 并 查看 输出 结果 (oozie web, HDFS) , 
思考 : 

1) 基于 数据 有 效 性 的 调度 任务 其 逻辑 是 怎样 的 ? 


2) 基于 数据 有 效 性 调度 任务 是 否 一 定 需要 设置 初始 时 间 ? 


7.5 ”本章 小 结 


本 章 介绍 了 大 数据 工作 流 Oozie 的 编译 及 其 使 用 ， 特 别 是 针对 其 使 用 ， 比 如 整合 MapReduce、Hive、Spakk、Pig 等 工作 流 都 给 出 了 实例 及 其 代码 ， 方 便 读 者 直接 上 手 实 验 ， 通 过 实验 体会 Oozie 的 工作 流 的 
TOURS 
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8.1 背景 


随 着 互联 网 和 信息 技术 的 快速 友 展 ， 电 子 商 务 、 网 上 服务 与 交易 等 网 络 业务 越 来 越 普及 ， 这 些 操作 会 产生 大 量 数据 (或 海量 数据 ) ， 用 户 想 要 从 海量 数据 中 快速 准确 地 寻找 到 自己 感 兴趣 的 信息 已 经 变 
得 越 来 越 困 难 ， 搜 索引 擎 因此 诞生 ， 如 应 用 比较 广泛 的 Google 搜 索 、Bing 搜 索 、 百 度 搜 索 等 。 搜 索引 擎 虽然 可 以 根据 关键 词 检 索 相关 信息 ， 但 是 无 法 解决 用 户 的 其 他 诸多 需求 ， 如 当 用 户 无 法 找到 准确 描述 
自己 需求 的 关键 词 时 ， 搜 索引 擎 就 无 能 为 力 了 (当然 ， 图 片 搜索 是 个 特例 ， 但 是 搜索 出 来 的 结果 的 相关 性 也 比较 小 ， 还 有 待 发 展 ) 。 本 章 的 研究 对 象 为 某 法 律 网 站 ， 该 网 站 致力 于 为 用 户 提供 丰富 的 法 律 信 
息 及 个 性 化 的 专业 咨询 服务 。 随 着 该 网 站 访问 量 的 增 大 ， 用 户 在 面 对 大 量 相关 信息 时 ， 无 法 及 时 从 中 获得 自己 确实 需要 的 信息 ， 从 而 导致 信息 的 使 用 效率 越 来 越 低 。 那 么 ， 有 没有 比 搜索 引 警 更 加 “ 智 
能 ”的 技术 来 改善 这 种 状况 呢 ? 


可 以 使 用 推荐 系统 来 对 搜索 引擎 加 以 完善 。 与 搜索 引 警 不同， 推荐 系统 并 不 需要 用 户 提供 明确 的 需求 ， 而 是 通过 分 析 用 户 的 历史 行为 ， 主 动 为 用 户 推荐 能 够 满足 他 们 兴趣 和 需求 的 信息 。 为 了 能 够 更 好 


地 满足 用 户 需求 ， 需 要 依据 其 网 站 的 海量 数据 研究 用 户 的 兴趣 偏好 、 分 析 用 户 的 需求 和 行为 、 发 现 用 户 的 兴趣 点 ， 从 而 引导 用 户 发 现 自己 的 信息 需求 ， 将 长 尾 网 页 (长 尾 网 页 是 指点 击 情况 满足 长 尾 理论 中 
尾巴 部 分 的 网 页 ) 准确 地 推荐 给 所 需 用 户 ， 即 使 用 推荐 引 警 来 为 用 户 提供 个 性 化 的 专业 服务 。 
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能 ”的 技术 来 改善 这 种 状况 呢 ? 


可 以 使 用 推荐 系统 来 对 搜索 引 警 加 以 完善 。 与 搜索 引 警 不同， 推荐 系统 并 不 需要 用 户 提供 明确 的 需求 ， 而 是 通过 分 析 用 户 的 历史 行为 ， 主 动 为 用 户 推荐 能 够 满足 他 们 兴趣 和 需求 的 信息 。 为 了 能 够 更 好 
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尾巴 部 分 的 网 页 ) 准确 地 推荐 给 所 需 用 户 ， 即 使 用 推荐 引擎 来 为 用 户 提供 个 性 化 的 专业 服务 。 


8.2 目标 


为 简化 系统 设计 ， 当 用 户 访问 网 站 页 面 时 ， 系 统 会 记录 用 户 访问 网 站 的 过 程 并 生成 日 志 。 本 章 针 对 这 些 日 志 内 容 加 以 整理 ， 包 括 用 户 IP (已 做 数据 脱 敏 处 理 ) 、 用 户 访 问 的 时 间 、 访 问 内 容 等 多 项 属性 
的 记录 ， 各 个 属性 及 其 说 明 如 表 8-1 所 示 。 


表 8-1 网 站 日 志 数 据 属 性 及 其 说 明 


属性 名 称 属性 说 明 属性 名 称 属性 说 明 
realAreacode 地 区 编号 源 地 址 名 


userAgent iu o af HE pageTitle 网 页 标题 


userOS 用 户 浏览 从 类 型 pageTitleCategoryId 标题 类 型 ID 


timestamp format 标准 化 时 间 入 口 网 址 
fullURL 网 址 下 


依据 表 8-1 所 示 的 网 站 日 志 属 性 的 说 明 ， 对 以 下 内 容 进行 分 析 : 


` 按 地 域 研究 用 户 访问 时 间 、 访 问 内 容 、 访 问 次 数 等 分 析 主 题 ， 深 入 了 解 用 户 访问 网 站 的 行为 、 目 的 及 关心 的 内 容 (主要 指 统计 信息 ) o 
* 借助 大 量 用 户 访问 记录 ， 使 用 多 种 推荐 算法 发 现 用 户 访问 习惯 ， 对 不 同 用 户 推 荐 相关 服务 页 面 (单个 莹 法 参数 择优 、 多 种 算法 之 间 对 比分 析 择 优 ) 。 


本 章 涉及 整个 系统 架构 ， 所 以 某 些 环 节 会 进行 一 定 简化 。 涉 及 的 模块 包括 传输 、 存 储 、 建 模 ， 以 及 最 优 模 型 筛选 流程 化 。 


8.3 ”系统 架构 及 流程 


系统 由 两 部 分 构成 : 法 律 网 系统 和 大 数据 推荐 系统 。 法 律 网 系统 为 传统 网 站 系统 ， 提 供 相 关 法 律 咨询 等 服务 ， 用 户 可 以 登录 查询 相关 页 面 。 大 数据 推荐 系统 则 主要 根据 用 户 的 访问 日 志 使 用 推荐 引擎 为 
用 户 推荐 感 兴趣 的 网 页 或 内 容 。 


两 个 系统 共同 工作 ， 用 户 访问 法 律 网 系统 会 产生 访问 日 志 。 法 律 网 系统 会 定时 (比如 每 天 凌晨 1 点 ) 将 日 志 生 成 日 志文 件 ， 然 后 传输 到 大 数据 推荐 系统 。 推 荐 系统 根据 用 户 访问 日 志 使 用 推荐 引擎 来 对 日 
志 数 据 进行 建 模 。 建 模 针对 不 同 参数 进行 ， 根 据 评价 算法 找 出 最 优 模 型 。 接 着 ， 使 用 最 优 模型 来 对 各 个 用 户 进 行 推 荐 ， 然 后 把 推荐 数据 再 次 传输 给 法 律 网 系统 ， 这 样 就 可 以 在 用 户 下 次 登录 的 时 候 ， 对 其 进 
行 推荐 。 整 体 流程 如 图 8-1 所 示 。 


sin —— — 


re "  — 
\ 用户: ul 用 户 : ul 


Visit Recommend 


推荐 算法 模型 : 
Spark ALS 
Spark FP 
Spark ItemZitem 


MySQL 
|: http://..,http://. 


Cron 定 时 任务 


~ 
~ 


日 志文 件 


am UR n 3D DW 


m 


MySC 
ul:http://..,http://. 


图 8-1 系统 流程 图 


图 8-1 所 示 的 流程 中 的 各 个 技术 简要 概括 如 下 : 


1) 用 户 访问 法 律 网 系统 时 ， 会 在 系统 后 台 服 务 器 数据 库 生 成 对 应 的 日 志 (比如 使 用 MySQL 存 储 数据 ) 。 

2) 系统 采用 Cron 定 时 任务 把 后 台 服 务 器 数据 库 中 的 用 户 日 志 数 据 存储 到 日 志文 件 中 。 

3) Flume 数 据 传 输 管道 会 在 日 志文 件 全 部 生成 后 ， 通 过 Flume Channel 把 其 传输 到 大 数据 推荐 系统 的 HDFS9 上 。 

4) 在 HDFS 上 的 日 志文 件 系统 可 以 通过 Hive 进 行 用 户主 题 分 析 ， 得 到 各 种 用 户 相关 的 统计 结果 ， 整 体 分 析 用 户 行为 ; 同时 ， 可 以 发 现 数据 中 的 异常 或 缺失 情况 。 
5) 在 步骤 4) 的 基础 上 使 用 Pig 或 直接 编写 MapReduce 代 码 来 进行 数据 预 处 理 ， 处 理 各 种 缺失 或 异常 数据 ， 同 时 ， 还 需 构造 模型 需要 的 数据 集 。 


6) 在 构造 出 模型 需要 的 数据 后 ， 使 用 多 种 模型 对 日 志 数 据 集 进行 建 模 ， 在 各 种 参数 调 优 之 后 ， 得 到 最 优 的 模型 参数 ， 固 化 该 模型 ， 并 以 此 模型 来 对 日 志 数 据 进行 推荐 分 析 。 得 到 的 推荐 结果 存储 到 


HDFS 或 HBase 中 (这 里 HBase 不 是 必 选 的 ， 如 果 用 户 数 不 多 ， 推 荐 结果 直接 存放 在 HPDFS 上 即 可 ， 但 是 ， 如 果 用 户 数 比较 多 ， 需 把 推荐 结果 存储 在 HBase 中 ， 同 时 提供 一 个 远程 调用 接口 ， 方 便 在 其 他 平台 
调用 HBase 中 的 结果 ) 。 


7) 得 到 推荐 结果 后 ， 再 次 通过 Flume 管 道 把 推荐 结果 传输 到 法 律 网 服务 器 ， 通 过 定时 任务 把 该 推荐 结果 文件 解析 到 服务 器 数据 库 中 ， 方 便 前 台 调 用 查询 (如 因 用 户 数 比 较 多 采用 HBase 人 存储 ， 则 这 时 可 
直接 调用 HBase 远 程 访问 接口 来 查询 推荐 结果 ) 。 


8) 上 述 步骤 4) 、5) 、6) 需要 通过 Oozie 工 作 流 组 件 编辑 多 个 工作 流 ， 保 证 这 些 步骤 可 以 自动 完成 ， 特 别 是 模型 择优 及 参数 选择 模块 。 


下 面 针对 各 个 技术 实现 进行 分 析 。 


8.4 ”分析 过 程 及 实现 


8.4.1 ”数据 传输 
为 简化 操作 ， 这 里 直接 假定 法 律 网 服务 器 用 户 访问 日 志 已 经 存储 在 指定 目录 ，Apache Flume 管 道 可 以 根据 该 目录 来 进行 数据 传输 。 下 面 是 传输 逻辑 : 
1) 用 户 访 问 日 志 每 天 定时 产生 一 个 或 多 个 日 志文 件 。 
2) Flume 传 输 任务 定时 在 每 天 01: 05， 注 意 传输 的 是 前 一 天 的 日 志文 件 。 
3) 传输 完毕 并 检查 正确 后 ， 删 除 原 日 志文 件 〈 是 否 删除 可 以 根据 实际 情况 确定 ) . 


在 安装 Flume 前 ， 需 要 确保 各 个 节点 已 经 安装 好 JDK， 本 节 假 定 读者 已 经 配置 好 了 Flume 的 Apache Flume 的 环境 (由 于 具体 配置 不 在 本 章 范围 内 ， 所 以 读者 可 以 在 官网 查询 相关 资料 进行 配置 ， 或 参考 
recommend/configuration/Centos6.7 配 置 Flume1.6.0.txt 文 档 ) 。 


本 节 主 要 使 用 的 是 Flume 的 文件 从 一 个 服务 器 传输 到 HDFS 上 面 的 功能 ， 如 图 8-2 所 示 。 


Source 


图 8-2” ”Flume 传输 文件 数据 到 HDFS 


Flume 数 据 传输 需要 定义 Source、Channel、Sink， 在 本 例 中 Source 定 义 为 本 地 目录 即 可 ，Channel 选 择 为 文件 传输 ，Sink 选 择 为 集群 HDFS， 其 示例 如 代码 清单 8-1 所 示 。 


代码 清单 8-1 Flume 文 件 到 HDFS properties 文 件 示例 配置 


# 配 置 agent 的 原始 源 (Sources) 、 管 道 (Channel) 、 目 标 源 (Sink) 
agent.sources-exampleDir 

agent.channels-memoryChannel 

agent.sinks-flumeHDFS 

# 设 置 原始 源 相 关 配置 
agent.sources.exampleDir.type-spooldir 
agent.sources.exampleDir.spoolDir-/opt/flume data 
# 设 置 管道 相关 配置 
agent.channels.memoryChannel.type-memory 
agent.channels.memoryChannel.capacity-10000 
agent.channels.memoryChannel.transactioncapacity-1000000 
# 设 置 目 标 源 相关 配置 

agent.sinks.flum 
agent.sinks.flum 
agent.sinks.flum 
agent.sinks.flum 
agent.sinks.flum 
# 设置 关系 
agent.sources.exampleDir.channels-memoryChannel 
agent.sinks.flumeHDFS.channel-memoryChannel 


HDFS.type-hdfs 

HDFS.hdfs.path-hdfs://master:8020/flume data 
HDFS.hdfs.fileType-DataStream 
H 
H 


DFS.hdfs.writeFormat-Text 
DFS.hdfs.maxOpenFiles-1 


E KEMBARANE Ro 
8.4.2 ”数据 传输 : 动手 实践 
本 实验 把 日 志文 件 从 法 律 网 服务 器 传输 到 HDFS 文 件 系 统 。 参 考 该 实验 ， 读 者 可 以 直接 部 署 、 运 行 相关 代码 ， 加 深 理解 Flume 数 据 传输 流程 以 及 Flume 性 能 调 优 等 问题 。 


步骤 如 下 : 


1) 新 建 /data 目 录 ， 在 启动 lume agent 后 把 日 志文 件 awdata_20140819 20141015.txt 拷 贝 到 此 文件 夹 的 2014 目 录 下 ， 如 图 8-3 所 示 。 


[rootünode45 datal# ls -R /data 
/data: 
2014 


/data/2014: 
lawdata 20140819 20141015.txt 
[root(node45 datalf 


图 8-3 原始 日 志文 件 
2) 参考 代码 清单 8-2 配 置 flume agent， 使 用 如 代码 清单 8-3 所 示 的 命令 运行 flume agent， 即 可 看 到 图 8-4 所 示 的 终端 信息 。 


代码 清单 8-2 local2hdfs.properties 配 置 文件 


## 配置 agent 的 原始 源 (Source) 、 管 道 (Channel) 、 目 标 源 (Sink) 
agent.sources-dataDir 

agent.channels-memoryChannel 

agent.sinks-hdfs 


## 设置 原始 源 相关 配置 
agent.sources.dataDir.type-spooldir 
agent.sources.dataDir.spoolDir-/data/ 
# 递归 处 理 
agent.sources.dataDir.recursiveDirectorySearch-TRUE 
# 1004 event 
agent.sources.dataDir.batchSize-100 
agent.sources.dataDir.deserializer-LINE 
agent.sources.dataDir.deserializer.maxLineLength-40960 


## 设置 管道 相关 配置 
agent.channels.memoryChannel.type-memory 
agent.channels.memoryChannel.capacity-10240 
agnet.channels.memoryChannel.transactionCapacity = 100 


## 设置 目标 源 相 关 配 置 
agent.sinks.hdfs.type-hdfs 
agent.sinks.hdfs.hdfs.path-hdfs://nameservicel/flume data/$y/$m 
agent.sinks.hdfs.hdfs.filePrefix-lawdata B 
agent.sinks.hdfs.hdfs.fileType-DataStream 
agent.sinks.hdfs.hdfs.writeFormat-Text 
# 每 30 秒 产生 一 个 文件 

agent .sinks.hdfs.hdfs.rollinterval=30 
# 128MB 文 件 大 小 产生 新 文件 
agent.sinks.hdfs.hdfs.rollSize- 134000000 
# 不 根据 event 个 数 产生 新 文件 
agent.sinks.hdfs.hdfs.rollCount-0 
# channel 中 event 个 数 


agent.sinks.hdfs.hdfs.batchSize-100 
agent.sinks.hdfs.hdfs.round-true 
agent.sinks.hdfs.hdfs.roundValue-1 
agent.sinks.hdfs.hdfs.roundUnit-month 
agent.sinks.hdfs.hdfs.useLocalTimeStamp-true 
## 设置 关系 


agent.sources.dataDir.channels-memoryChannel 
agent.sinks.hdfs.channel-memoryChannel 


代码 清单 8-3 flume agent 启 动 命令 


#cd SELUME HOME 
#bin/flume-ng agent -n agent -c conf -f demo/local2hdfs.properties -Dflume.root.logger-INFO,console -Xmx2g 


"o Ves 
^ 把 上 述 配 置 文件 放 在 $FLUME_HOME/demo， 并 重 命名 为 local2hdfs.propetties。 


16/12/16 21:21:08 INFO hdfs.BucketWriter: Renaming hdfs://nameservicel/flume data/16/ 
12/lawdata .1481894446248.tmp to hdfs://nameservicel/flume data/16/12/lawdata .148189 
4446248 

16/12/16 21:21:08 INFO hdfs.BucketWriter: Creating hdfs://nameservicel/flume data/16/ 
12/lawdata .1481894446249.tmp 

16/12/16 21:21:16 INFO hdfs.BucketWriter: Closing hdfs://nameservicel/flume data/16/1 
2/lawdata .1481894446249.tmp 

16/12/16 21:21:16 INFO hdfs.BucketWriter: Renaming hdfs://nameservicel/flume data/16/ 
12/lawdata .1481894446249.tmp to hdfs://nameservicel/flume data/16/12/lawdata .148189 
4446249 

16/12/16 21:21:16 INFO hdfs.BucketWriter: Creating hdfs://nameservicei/flume data/16/ 
12/lawdata .1481894446250.tmp 

16/12/16 21:21:23 INFO avro.ReliableSpoolingFileEventReader: Last read took us just u 
p to a file boundary. Rolling to the next file, if there is one. 

16/12/16 21:21:23 INFO avro.ReliableSpoolingFileEventReader: Preparing to move file / 
data/2014/1awdata 20140819 20141015.txt to /data/2014/1lawdata 20140819 20141015.txt.C 
OMPLETED 

16/12/16 21:21:46 INFO hdfs.BucketWriter: Closing hdfs://nameservicel/flume data/16/1 
2/lawdata .1481894446250.tmp 

16/12/16 21:21:46 INFO hdfs.BucketWriter: Renaming hdfs://nameservicel/flume data/16/ 
12/1lawdata .1481894446250.tmp to hdfs://nameservicel/flume data/16/12/lawdata .148189 
4446250 

16/12/16 21:21:46 INFO hdfs.HDFSEventSink: Writer callback called. 


图 8-4 flume agent 运 行 日 志 信 息 


3) 运行 完成 后 ， 查 看 HDFS 上 文件 是 否 上 传 成 功 。 若 成 功 上 传 ， 可 在 HDFS 上 看 到 图 8-5、 图 8-6 所 示 文 件 (使 用 flume 从 本 地 上 传 数据 到 HDFS 后 ， 如 果 上 传 成 功 ， 在 本 地 会 有 一 个 提示 成 功 的 文件 ， 
以 .COMPLETED 结 尾 ) 。 


8.4.3 ”数据 探索 分 析 


数据 通过 法 律 网 日 志 服务 器 传输 到 大 数据 平台 HDFS 后 ， 不 能 简单 地 对 其 进行 处 理 就 直接 丢 给 Spark 模 型 进行 运行 。 对 于 任何 一 个 数据 挖掘 问题 ， 这 样 的 做 法 都 是 有 问题 的 。 一 般 情况 下 需要 事先 对 原始 
数据 文件 进行 简单 的 统计 分 析 ， 以 期 能 得 到 数据 的 一 个 初步 概况 。 本 节 就 是 针对 数据 进行 这 样 的 统计 分 析 ， 使 用 的 工具 是 Hive。 上 传 到 HDFs 的 数据 可 以 通过 相关 Hive 命 令 导 入 Hive 表 中 ， 由 于 后 面 的 查询 
操作 都 是 在 Hive 里 面 完成 的 ， 所 以 这 里 采用 管理 表 。 建 表 并 导入 数据 的 代码 如 代码 清单 8-4 所 示 。 


ontents of directory /flume data/16/12 


oto : |flume data/16/12 go | 


图 8-5 ”HDFS 数 据 展 示 数 据 (flume agent 上 传 数据 到 HDFS) 


[root@node45 2014]# ls -R /data 
/data: 
2014 


/data/2014: 
lawdata 20140819 20141015.txt.COMPLETED 


图 8-6 ”本 地 上 传 完成 后 日 志文 件 (flume agent 上 传 数据 到 HDFS) 


代码 清单 8-4 ”Hive 建 表 及 导入 数据 代码 


3 


---- 创 建 law 表 
CREATE TABLE law ( 


area int, 
ie proxy string, 

ie type string , 
userid string, 
clientid string, 
time stamp bigint, 
time format string, 
pagepath string, 


visiturl string, 
page type string, 
host string, 
page title string, 

page title type int, 
page title name string, 
title keyword string, 
in port string, 

in url string, 

search keyword string, 
source string) 
ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' 
STORED AS TEXTFILE; 

---- 导 入 数据 
load data inpath '/user/root/law all 20140819 20141031.csv' overwrite into table law; 


原始 数据 在 Hive 表 中 导入 完成 后 ， 直 接 查 询 得 到 该 数据 的 记录 数 为 ?9159918。 同 时 对 原始 数据 中 的 网 页 类 型 、 点 击 次 数 、 网 页 排名 等 各 个 维度 进行 分 布 分 析 ， 获 得 其 内 在 的 规律 。 针 对 出 现 的 统计 结 
解释 其 对 应 的 原因 。 


o * 在 数据 探索 、 数 据 预 处 理 、 模 型 构建 阶段 使 用 抽取 的 2014/8/19~2014/10/15 的 数据 进行 分 析 与 处 理 。 

1. 网 页 类 型 分 析 

针对 原始 数据 中 用 户 点 击 的 网 页 类 型 进行 统计 ， 统 计 内 容 为 网 页 类 型 、 记 录 数 及 其 所 占 总 记录 百分比 。 其 HiveQL 语 句 如 代码 清单 8-5 所 示 。 
代码 清单 8-5” 按 网 页 类 型 统计 


---- 统 计 网 页 类 型 

select substring (page type,1,3) as page type, 
count(*) as count num, i 
round ( (count (*)/59159918.0) *100,4) as weights 
from law group by substring (page type,1,3) 
order by count num desc; 


在 Hive 中 运行 代码 清单 8-5 中 的 代码 ， 即 可 得 到 如 表 8-2 所 示 的 结果 。 从 中 发 现 点 击 与 咨询 相关 的 网 页 (网 页 类 型 为 101，http://www.*.cn/ask/) 的 记录 占 比 为 55.16%， 其 次 是 知识 相关 网 页 (网 页 类 


873107, http://www.*.com/info/) 占 23.77%， 其 他 的 类 型 网 页 (网 页 类 型 为 199) 占 16.11%。 


表 8-2 网 页 类 型 统计 表 
网 页 类 型 id R H B S E 
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通过 观察 类 别 为 199 的 网 页 ， 发 现 其 页 面 信息 多 数 与 法 律 法 规 相 关 ， 所 以 统计 类 别 为 199， 并 且 包 含 法 律 法 规 的 记录 个 数 ， 其 Hive 代 码 如 代码 清单 8-6 所 示 。 


代码 清单 8-6 ”网 页 类 别 统计 


---- 统 计 网 页 类 型 
select substring (page type,1,7) as page type, visiturl, 
count(*) as count num from law where visiturl like '$faguizt$' and page type like '$199$' ; 


执行 上 述 代码 后 ， 可 以 得 到 记录 个 数 为 3238450。 综 合 可 得 表 8-2 中 199 的 记录 数 应 该 为 6291936， 而 301 的 记录 数 应 该 为 4631151。 因 此 可 以 得 到 用 户 点 击 页 面 类 型 的 排行 榜 为 : 咨询 相关 、 知 识 相 
其 他 方面 的 网 页 、 法 规 (类 型 为 301) 、 人 律师 相关 (类 型 为 102) 。 可 以 初步 得 出 : 相对 于 长 篇 的 知识 ， 用 户 更 加 偏向 于 查看 咨询 或 者 进行 咨询 。 


(1) 咨询 类 别 内 部 统计 
进一步 针对 咨询 类 别 内 部 进行 统计 分 析 ， 统 计 内 容 为 101 网 页 类 型 的 子 类 型 、 记 录 数 及 其 所 占 101 网 页 类 型 总 记录 百分比 ，Hive 命 令 行 代码 如 代码 清单 8- 7 所 示 。 


代码 清单 8-7 ”咨询 类 内 部 统计 Hive 命 令 


E 咨询 类 别 内 部 统计 

select substring (page type,1,6) as page type, 
count(*) as count num, 

round ( (count (*)/411665.0) *100, 4) as weights 
from law part where page type part-101 

group by substring (page type,1, 6) 

order by count num desc; 


运行 代码 清单 8-7 所 示 代 码 ， 其 结果 如 表 8-3 所 示 。 其 中 浏览 咨询 内 容 页 (101003) 记录 最 多 ， 其 次 是 咨询 列表 页 (101002) 和 咨询 首页 (101001) 。 结 合 上 述 初 步 结 论 ， 可 以 得 出 用 户 都 喜欢 通过 浏 
览 问题 的 方式 找到 自己 需要 的 信息 ， 而 不 是 以 提问 的 方式 或 者 查看 长 篇 知识 的 方式 。 


表 8-3 咨询 类 内 部 统计 结果 


101 开头 类 型 id 录 数 百 分 比 


101003 31 923 682 97.83 
101001 159 210 0.49 
101008 3 262 9.99E-03 
101005 2.195 6.73E-03 


(2) 网 页 中 带 有 “? ”记录 统计 
统计 所 有 访问 网 页 中 带 有 “? ”的 总 记录 数 。 统 计 分 析 访 问 网 页 中 带 有 “? ”的 所 有 记录 中 ， 各 网 页 类 型 、 记 录 数 、 占 访问 网 页 中 带 有 “? ”的 记录 总 数 的 百分比 。Hive 命 令 行 如 代码 清单 8-8 所 示 。 


代码 清单 8-8 ”网 页 中 带 有 “? ”记录 统计 及 各 个 类 别 占 比 


一 一 一 一 一 统计 visitur1 中 带 有 \? “的 所 有 记录 
select count(*) as num from law part where visiturl like 
-----Sül HH"? “的 所 有 记录 中 ， 各 网 页 类 型 所 占 比例 

select substring (page type,1,7) as page type,count(*),round((count(*)*100)/ 2171532, 4) as weights from law where visiturl like '$?$' group by substring(page type,1,7) order by 


9029.1. 
grg F 


运行 代码 清单 8-8 后 ， 其 结果 整理 见 表 8-4。 包 含 “? ”总 记录 数 为 2171532， 特 别 在 其 他 网 页 这 一 类 型 中 占 了 989% 左 右 ， 比 重 较 大 ， 因 此 需要 进一步 分 析 该 类 型 网 页 的 内 部 规律 ， 但 在 知识 相关 与 法 规 
专题 中 的 占 比 仪 为 1% 左 右 。 


表 8-4 网 页 中 带 有 “? ”记录 统计 结果 


id 3 数 网 页 ID B 六 E 


199 900 2142885 98.68 
102 002 221 0.01 


通过 分 析 发 现 ， 大 部 分 网 址 以 如 下 形式 存在 : 
“http://www.X X.cn/guangzhou/p2lawfitm 地 区 律师 事务 所 
- http://www. X X.cn/guangzhou 地 区 网 址 
* http://www. X X.cn/ask/ask.php 咨 询 首 页 
` http://www. X X.cn/ask/midques_10549897.html 中 间 类 型 网 页 
- http://www. X X.cn/ask/exp/4317.html 咨 询 经 验 


* http://www. X X.cn/ask/online/138.html 在 线 咨询 页 


池 


带 有 标记 的 三 类 网 址 本 应 该 有 相应 的 分 类 ， 但 是 由 于 分 类 规则 的 匹配 问题 ， 没 有 相应 的 匹配 。 带 有 lawfirm 关 键 字 的 网 址 对 应 律师 事物 所 ， 带 有 asky/exp、ask/online 关 键 字 的 网 址 对 应 咨询 经 验 和 在 线 
咨询 页 。 在 处 理 数据 过 程 中 将 其 进行 清楚 分 类 ， 便 于 后 续 数 据 分 


在 1999001 类 型 中 ， 有 法 律 快车 -律师 助手 、 带 有 “? ”的 访问 页 面 记录 等 类 型 数据 ， 通 过 业务 了 解 获知 ， 法 律 快 车 -律师 助手 类 型 的 页 面 是 律师 的 一 个 登录 页 面 。 带 有 “? ”的 页 面 记录 ， 
如 http://www.xx.com/ask/question_9152354.html? &from=androidqq， 代 表 该 网 页 曾 被 分 享 过 的 ， 因 此 可 以 通过 截取 “? ”前 面 的 网 址 对 其 进行 处 理 ， 还 原 其 原 类 型 。 


在 查看 数据 的 过 程 中 ， 发 现存 在 一 部 分 这 样 的 用 户 ， 他 们 没有 点 击 具 体 的 网 页 (以 .html 后 缀 结尾 ) ， 他 们 点 击 的 大 部 分 是 目录 网 页 ， 这 样 的 用 户 可 定义 为 “ 瞎 狂 用户”。 由 此 可 见 ， 不 仅 1999001 页 面 


类 型 中 有 如 此 复杂 的 网 址 类 型 ， 其 余 的 页 面 类 型 可 能 也 会 出 现 ， 因 此 ， 后 续 清洗 数据 时 ， 需 要 对 所 有 数据 使 用 类 似 规则 处 理 。 
通过 上 述 网 址 类 型 分 布 分 析 (后 续 分 析 中 ， 选 取 其 中 占 比 最 多 的 两 类 : 咨询 内 容 页 、 知 识 内 容 页 进行 模型 分 析 ) ， 可 以 发 现 与 分 析 目 标 无 关 的 数据 清洗 规则 : 


无 点 击 .html 行 为 及 URL 中 的 用 户 记录 。 


— 
— 


2) 中 间 类 型 网 页 ( 带 有 midques 关键 字 ) 。 

3) 网 址 中 带 有 “? ”类 型 ， 无 法 还 原 其 本 身 类 型 的 快 搜 页 面 与 发 布 咨 询 网 页 。 
4) 法 律 快车 -律师 助手 记录 ， 页 面 标题 包含 “法 律 快 车 -律师 助手 ”关键 字 。 
5) 筛选 模型 所 需 记录 (咨询 、 知 识 、 法 规 专题 页 面 数据 ) 。 

6) 重复 数据 (同一 时 间 同 一 用 户 ， 访 问 相同 网 页 ) 。 


记录 这 些 规则 ， 有 利于 在 数据 清洗 阶段 对 数据 进行 清洗 操作 。 上 述 过 程 就 是 对 网 址 类 型 进行 统计 得 到 的 分 析 结 果 ， 针 对 网 页 的 点 击 次 数 也 可 以 进行 类 似 分 析 。 
2. 点 击 次 数 分 析 
统计 分 析 原 始 数 据 用 户 浏 览 网 页 次 数 的 情况 ， 统 计 内 容 为 点 击 次 数 、 用 户 数 、 用 户 百分比 、 记 录 百 分 比 。Hive 命 令 行 如 代码 清单 8-9 所 示 。 


代码 清单 8-9 ”点 击 次 数 分 析 命 令 


-一 EEUU 
select count(distinct(userid)) from law; 
Becr 创建 点 击 次 数 分 区 表 ， 分 区 字段 click part 


set hive.exec.dynamic.partition-true; 

set hive.exec.dynamic.partition.mode-nostrict; 
create table law click ( 
user num int, 
user weights double, 

record weights double 
) partitioned by (click part string) 

ROW FORMAT DELIMITED FIELDS TERMINATED BY i 
STORED AS TEXTFILE; 
------ 导 入 分 区 数据 到 分 区 表 law_ click 
NSERT OVERWRITE TABLE law click PARTITION (click part) 
select count (click num) as count, round (count (click num) *100/31562704.0,2), round ( (count (click num)*click num)*100/59159918.0,2),click num from 
select count(userid) as click num from law group by userid 

) tmp table group by click num order by count desc; 
----- 点 击 次 数 分 类 统计 i 
set hive.exec.reducers.max-1; 
select click num, count (click num) as count, round (count (click num)*100/31562704.0,2),round((count(click num)*click num) *100/59159918.0,2)from 
select count (userid) as click num from law group by userid E i 
) tmp table group by click num order by count desc; 


~ 


~ 


运行 代码 清单 8-9， 其 结果 整理 如 表 8-5 所 示 。 其 中 用 户 总 数 为 31562704， 总 记录 数 为 59159918。 可 以 发 现 浏览 一 次 的 用 户 占 75% 左 右 ， 大 部 分 用 户 浏 览 的 次 数 为 1 ~ 7 次 ， 大 约 87% 的 用 户 只 提供 了 约 
54% 的 浏览 量 ， 即 浏览 网 页 1 ~ 2 次 的 用 户 占 了 大 部 分 。 


表 8-5 ”用户 点 击 次 数 统计 表 


Eh E 用 hn 数 用 户 百 分 比 记录 日 分 比 


2 4 164 797 13.20 14.08 
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针对 浏览 次 数 为 一 次 的 用 户 进行 统计 分 析 ， 统 计 内 容 为 网 页 类 型 、 记 录 个 数 、 记 录 占 浏览 一 次 的 用 户 数 百分比 。Hive 命 令 如 代码 清单 8-10 所 示 。 


M’ 
N 
U 


代码 清单 8-10 ”浏览 一 次 用 户 行为 分 析 


select page type,count(page type) as count,round((count(page type)*100)/ 23587727.0, 4) from 
(select substring(a.page type,1,7) as page type from law a, (select userid from law group by userid having (count (userid)-1)) b 
where a.userid = b.userid) c group by page type order by count desc limit 5; 


整理 结果 如 表 8-6 所 示 。 其 中 问题 咨询 页 占 比 为 719% 左 右 ， 知 识 页 占 比 为 19% 左 右 ， 而 且 这 些 访问 基本 上 通过 搜索 引擎 进入 。 


表 8-6 浏览 一 次 用 户 行为 分 析 


网 页 类 型 ID 记录 个 数 ERANI 


101003 16 841 247 71.40 


107001 4 524 104 19.18 
1999001 ] 883 166 7.98 
301001 315 871 1.34 
101002 7 3523 0.03 


由 以 上 针对 浏览 次 数 为 一 次 的 用 户 分 析 结果 ， 可 以 对 该 类 用 户 情况 做 出 两 种 猜测 : 
1) 用 户 为 流失 用 户 ， 在 问题 咨询 与 知识 页 面 上 没有 找到 相关 的 需要 。 
2) 用 户 找 到 其 需要 的 信息 ， 因 此 直接 退出 。 


综合 这 些 情况 ， 可 将 这 些 点 击 一 次 的 用 户 行为 定义 为 网 页 的 跳出 行为 ， 用 于 计算 网 页 跳出 率 。 


为 了 降低 网 页 的 跳出 率 ， 就 需要 对 这 些 网 页 进行 针对 用 户 的 个 性 化 推荐 ， 帮 助 用 户 发 现 其 感 兴趣 或 者 需要 的 网 页 。 针 对 点 击 一 次 的 用 户 浏 览 的 网 页 进行 统计 分 析 ， 其 分 析 Hive 代 码 如 代码 清单 8-11 所 


代码 清单 8-11 ”针对 点 击 一 次 用 户 浏 览 网 页 统计 分 析 


select a.visiturl,count(*) as count from 

law a, 

(select userid from law group by userid having (count (userid)-1)) b 

where a.userid = b.userid group by a.visiturl order by count desc limi 7; 


直接 运行 代码 清单 8-11， 其 结果 如 表 8-7 所 示 。 可 以 看 出 排名 靠 前 的 页 面 均 为 知识 与 咨询 页 面 ， 因 此 可 以 猜测 大 量 用 户 的 关注 点 为 法 律 知识 或 咨询 。 


表 8-7 ”点击 一 次 用 户 访问 URL 排 名 


网 页 m och 数 


http://www. X X .en/info/hunyin/Ihlawlhxy/20110707137693.html 69 858 
http://www. X X .en/info/shuifa/slb/2012111978933 2.html 28 507 
http://www. X X .en/zhishi/ 13 167 
http://www. X X .en/info/hunyin/jiehun/hunj1a/201312182875578.html 12 802 
http://www. X X .cn/info/shuifa/slIb/2012111978933.html 12 022 
http://www. X X .cn/ask/exp/13425.html 11 766 
http://www. X X.cn/ask/question 925675.html 10 73 
3. 网 页 排名 


由 分 析 目 标 可 知 ， 个 性 化 推荐 主要 针对 .html 后 缀 的 网 页 〈 与 物品 的 概念 类 似 ) 。 从 原始 数据 中 统计 .html 后 缀 的 网 页 的 点 击 率 ， 其 Hive 代 码 如 所 代码 清单 8-12 所 示 。 


代码 清单 8-12 ”原始 数据 中 包含 html 后 缀 的 网 页 点 击 率 统计 


select a.visiturl,count(*) as count from law a where a.visiturl like '$.html$' group by a.visiturl; 


运行 代码 清单 8-12， 其 点 击 率 排名 的 结果 如 表 8-8 所 示 。 从 表 8-8 中 可 以 看 出 ， 点 击 次 数 排名 前 10 名 的 项 目 中 ， 法 规 专题 占 了 大 部 分 ， 其 次 是 知识 。 但 是 从 前 面 分 析 的 结果 中 可 知 ， 原 始 数据 中 与 咨询 主 
题 相关 的 记录 占 了 大 部 分 ， 但 是 在 其 .html 后 缀 的 网 页 排名 中 ， 专 题 与 知识 的 占 了 大 部 分 。 通 过 业务 了 解 ， 专 题 是 属于 知识 大 类 里 的 一 个 小 类 。 在 统计 .html 后 缀 的 网 页 点 击 排名 时 出 现 这 种 现象 的 原因 是 知 
识 页 面相 比 咨询 的 页 面 要 少 很 多 ， 当 大 量 的 用 户 在 浏览 咨询 页 面 时 ， 呈 现 一 种 比较 分 散 的 浏览 次 数 ， 即 其 各 个 页 面 点 击 率 不 高 ， 但 是 其 总 的 浏览 量 高 于 知识 类 ， 所 以 人 造成 网 页 排名 中 咨询 方面 的 排名 比较 
低 。 


表 8-8 原始 数据 点 击 率 排名 表 
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http://www. X X. 


网 H 点 t 数 
cn/faguizt/23.html 534 426 
cn/info/hunyin/Ihlawlhxy/20110707137693.html 498 055 
cn/info/hunyin/Ihlawlhxy/20110707137693 2.html 321 863 
cn/faguizt/11 .html 287 282 
cn/faguizt/43.html 238 754 
cn/faguizt/21.html 222 843 
cn/faguizt/79.html 190 692 
cn/faguizt/117.html 149 721 
cn/faguizt/9.html 140 222 
cn/faguizt/7.html 118 920 


从 原始 htm| 的 点 击 率 排行 榜 中 可 以 发 现 如 下 情况 ， 排 行 榜 中 存在 这 样 两 种 类 似 的 网 
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HE: http://www. x x.cn/info/hunyin/IhlawIhxy/20110707137693 2.html 和 http://www.xx.cn/info/hunyin/lhlawlhxy/20110707137693.html。 通 过 简单 访问 网 址 ， 发 现 其 本 身 属于 同一 网 页 ， 但 由 于 
系统 在 记录 用 户 访问 网 址 的 信息 时 会 同时 记录 翻 页 信息 ， 因 此 在 用 户 访问 网 址 的 数据 中 存在 翻 页 的 情况 。 针 对 这 些 翻 页 的 网 页 进行 统计 ， 其 结果 如 表 8-9 所 示 。 


表 8-9 翻 页 网 页 统计 


网 页 点 击 次 数 
cn/info/gongsi/slbgzedj/201312312876742.html 19 299 
cn/info/gongsi/slbgzcdj/201312312876742 2.html 13 596 
cn/info/hetong/1dht/201311152872128.html 15 204 
cn/info/hetong/1dht/201311152872128 2.html 38 053 
cn/info/hetong/1dht/201311152872128 3.html 21 251 
cn/info/hetong/1dht/201311152872128 4.html 13 106 


通过 业务 了 解 ， 登 录 次 数 最 多 的 页 面 基本 为 可 从 外 部 搜索 引擎 直接 搜索 到 的 网 页 。 对 其 中 浏览 翻 页 的 情况 进行 分 析 ， 平 均 60% ~ 80% 的 人 会 选择 看 下 一 页 ， 基 本 每 一 页 都 会 丢失 20% ~ 40% 的 点 击 率 ， 


点 击 率 会 出 现 衰减 的 情况 。 同 时 对 知识 类 网 页 进行 检查 ， 可 以 友 现 页 面 上 并 无 全 页 显示 功能 ， 
浏览 全 部 内 容 。 因 此 用 户 会 直接 放弃 此 次 搜索 ， 从 而 增加 了 网 站 的 跳出 率 ， 降 低 了 客户 的 满意 度 ， 不 利于 企业 的 长 期 稳定 发 展 。 


4. 动 手 实践 : 数据 探索 分 析 


但 是 知识 页 面 中 大 部 分 都 存在 翻 页 的 情况 。 这 样 就 造成 了 大 量 的 用 户 基本 只 会 选择 浏览 2~ 5 页 ， 极 少数 会 选择 


根据 前 面 的 数据 探索 分 析 过 程 ， 使 用 Hive 完 成 以 下 实验 。 实 验 包 括 网 页 类 型 统计 、 点 击 次 数 统计 、 网 页 排名 统计 等 。 实 验 步骤 如 下 : 


1) 创建 law 表 ， 导 入 数据 law_all 20140819 20141031.csv, 


2) 查询 表 law 中 总 记录 数 ， 统 计 网 页 类 型 ,结果 字段 为 网 页 类 型 、 记 录 数 、 记 录 所 占 总 记录 百分比 。 

3) 创建 动态 分 区 表 law_part， 分 区 字段 为 page_type， 导 入 对 应 数据 到 分 区 。 

4) 咨询 类 型 网 页 内 部 统计 ， 结 果 字段 为 : 101 网 页 类 型 的 子 类 型 、 记 录 数 、 记 录 所 占 101 网 页 类 型 总 记录 百分比 。 

5) 统计 访问 网 页 中 带 有 “? ”的 记录 总 数 ， 统 计 访问 网 页 中 带 有 “? ”的 所 有 记录 中 各 网 页 类 型 、 记 录 数 及 其 占 访问 网 页 中 带 有 “? ”的 记录 总 数 的 百分比 。 
6) 用 户 个 数 统计 ， 创 建 点 击 次 数 分 区 表 law_click， 分 区 字段 为 click_part。 

7) 导入 分 区 数据 到 law_click。 

8) 点 击 次 数 分 类 统计 ， 结 果 字 段 为 : 点 击 次 数 、 用 户 数 、 用 户 百分比 、 记 录 百 分 比 。 

9) 浏览 一 次 的 用 户 分 类 统计 ， 结 果 字 段 为 : 网 页 类 型 、 记 录 个 数 、 记 录 占 浏览 一 次 的 用 户 数 百分比 。 点 击 一 次 的 用 户 浏览 网 页 统计 。 

10) 点 击 率 排名 统计 ， 结 果 字 段 为 : 网 址 、 点 击 次 数 。 


11) 翻 页 网 页 统计 ， 


思考 : 


结果 字段 为 : 网 址 、 点 击 次 数 。 


1) 为 什么 要 创建 动态 分 区 表 ? 动态 分 区 表 的 字段 应 该 如 何 选择 ? 


2) 针对 各 个 HiveQL 语 句 是 否 可 以 进行 优化 ? 


3) 如 果 使 用 MapReduce 来 开发 ， 是 否 效率 比 Hive 高 ”开发 时 间 是 否 缩短 ? 


8.4.4 数据 预 处理 


本 案例 在 原始 数据 探索 分 析 的 基础 上 ， 发 现 与 分 析 目 标 无 天 或 模型 需要 处 理 的 数据 ， 针 对 此 类 数据 进行 处 理 。 其 中 涉及 的 数据 处 理 方 式 有 数据 清洗 、 数 据 变换 和 属性 归 约 。 通 过 上 述 数据 预 处 理 过 程 ， 
原始 数据 将 被 处 理 成 模型 需要 的 输入 数据 。 


1 .数据 清洗 

使 用 Pig 和 MapReduce 程 序 进行 数据 清洗 ， 从 探索 分 析 的 过 程 中 发 现 与 分 析 目 标 无 关 的 数据 ， 归 纳 总 结 并 整理 成 清洗 规则 ， 如 下 : 
1) 无 点 击 .html 行 为 的 用 户 记 录 。 

2) 中 间 类 型 网 页 ( 带 有 midques 关键 字 ) 。 

3) 网 址 中 带 有 “? ”类 型 数据 。 

4) 筛选 模型 所 需 数据 (咨询 、 知 识 、 法 规 专题 页 面 数据 ) 。 

5) 重复 数据 (同一 时 间 同 一 用 户 ， 访 问 相 同 网 页 ， 这 里 的 同一 用 户 是 指 UserID 相 同 ) 。 

其 采用 的 Pig 脚 本 如 代码 清单 8-13 所 示 。 其 中 1) ~ 5) 步 使 用 Pig 清 洗 ， 并 将 结果 存储 到 HDFs。 


代码 清单 8-13 Pig 数据 清洗 代码 


-- 步 又 1: 删除 无 点 击 .html 行 为 的 用 户 记录 ， 统 计 剩余 记录 

law = load '/user/root/law all 20140819 20141031.csv' using PigStorage (','); 

law filter html = filter law by ($10 matches '.*\\.html'); 

law grp html = group law filter html all; 

count num — foreach law grp html generate COUNT (law filter html) as delete num; 

.name 'law filter html'; i i B 

dump count num; 

-- 步 骤 2: 删除 中 间 类 型 网 页 〈 带 有 midques 关键 字 ) ， 统 计 剩 余 记 录 

law filter mid = filter law filter html by ($10 matches '.*midques .*'); 

mid = group law filter mid all; T 

count num = foreach law grp mid generate COUNT (law filter mid)) as delete num; 

set job.name 'law filter mid'; i 

dump count num; 

-- 步 又 3: 删除 网 址 中 带 有 *?“ 类 型 数据 ， 统 计 剩 余 记 录 

law filter mark = filter law filter mid by ($10 matches '.*\\2.*!')}; 

law grp mark = group law filter mark all; 

count num = foreach law grp mark generate COUNT (law filte mark) as delete num; 
.name 'law filter mark'; i ee B 

dump count num; 

-- 步 又 4: 筛选 模型 所 需 数据 (咨询 、 知 识 、 法 规 专题 页 面 数据 ) 

-- 注 意 : 为 了 使 用 SUBSTRING () 方 法 ， 需 注册 piggybank.jar 包 

--register pig 安装 目录 /Lib/piggybank.Jjaz 

law filter data = filter law filter mark by (SUBSTRING($11,0,3) == '101' or SUBSTRING($11,0,3) == '107' or SUBSTRING($11,0,3) == ' 301'); 

law grp data = group law filter data all; 

count num = foreach law grp data generate COUNT (law filter data) as delete num; 

set job.name 'law filter data'; 

dump count num; 

步骤 5: 重复 记录 统计 

-- 注 意 : 为 了 使 用 SUBSTRING () 方 法 ， 需 注册 piggybank.jar 包 

--register pig% H3k/lib/piggybank.jar 


law distinct fields = foreach law filter data generate $4 ,$7,5$10; 

law distinct data - distinct law distinct fields; 

law grp distinct = group law distinct data all; 

count num = foreach law grp distinct generate COUNT (law distinct data) as delete num; 
set job.name 'law filter distinct'; i 


dump count num; 
-- 箱 出 结果 到 HDFS 


store law distinct data into '/user/root/law cleaned' using PigStorage(','); 


清洗 结果 如 表 8-10 所 示 。 清 洗 过 程 中 ， 上 一 步 的 结果 作为 下 一 步 的 数据 ， 因 此 下 一 步 需 要 清洗 的 数据 已 在 上 一 步 清洗 过 程 中 完成 。 


表 8-10 ”数据 清洗 结果 


清洗 顺序 清洗 规则 删除 数据 记录 剩余 记录 数 
l 无 .html 点击 行为 的 用 户 记 录 6 785 915 52 374 003 


2 型 网 页 (市 midques 关键 字 20 360 52 353 643 
3 44 686 52 308 957 
5 ji o [700 Jr rts KA 7 602 925 44 706 032 


6 重复 数据 52 325 44 653 707 


根据 分 析 目 标 以 及 探索 结果 可 知 咨 询 、 知 识 、 法 规 专题 是 其 主要 业务 来 源 ， 故 需 筛 选 咨询 、 知 识 与 法 规 专 题 相关 的 记录 ， 将 此 部 分 数据 作为 模型 分 析 需 要 的 数据 。 
2. 数 据 变换 
用 户 访问 网 页 的 过 程 中 ， 存 在 翻 页 的 情况 ， 不 同 的 网 址 属于 同一 类 型 的 网 页 ， 类 似 记 录 如 表 8-11 所 示 。 


表 8-11 存在 翻 页 的 记录 


访问 网 页 


http://www. X X .com/info/jiaotong/jtlawdljtaqf/201410103308246.html 


ĦA ID 
1665329212.1408435380 
1665329212.1408435380 http://www. X X .com/info/Tiaotong/j1tlawdljtaq£/201410103308246 2.html 
1665329212.1408435380 http://www. X X .com/info/Tiaotong/j1tlawdljtaqf/201410103308246 4.html 
1665329212.1408435380 | 2014-09-11 15:26:00 | http://www. X X .com/info/jaotong/jtlawdljtaqf/201410103308246 5.html 


1665329212.1408435380 | 2014-09-11 15:26:10 | http://www. X X .com/info/jaotong/jtlawdljtaqf/201410103308246 6.html 


数据 处 理 过 程 中 需要 对 这 类 了 网址 进行 处 理 ， 最 简单 的 处 理 方法 是 将 翻 页 的 网 址 删除 。 但 是 用 户 在 访问 页 面 的 过 程 中 ， 是 通过 搜索 引擎 进入 网 站 的 ， 其 入 口 网 页 不 一 定 是 原始 类 别 的 首页 ， 采 用 删除 的 方 
法 会 损失 大 量 的 有 用 数据 ， 在 进入 推荐 系统 时 ， 会 影响 推荐 结果 。 因 此 针对 这 些 网 页 需要 还 原 其 原始 类 别 ， 所 以 首先 需要 识别 翻 页 的 网 址 ， 然 后 对 翻 页 的 网 页 进行 还 原 处 理 ， 如 表 8-11 所 示 的 数据 清洗 后 得 
到 的 结果 为 http:/www.x x.com/info/jiaotong/jtlawdljtaqf/201410103308246.html, 


在 数据 清洗 后 的 结果 中 ， 有 类 似 http://www.x x.cn/ask/question 4749.html 和 http://www.x x.cn/ask/question list4749.html 的 访问 网 址 ， 这 些 网 址 并 不 属于 翻 页 网 址 ， 因 此 不 能 按照 翻 页 来 处 
理 。 以 上 两 个 网 址 的 区 别 是 : ask/question 与 .html 之 间 的 字符 串 是 否 全 为 数字 ， 全 为 数字 的 网 址 是 保留 的 网 址 ， 否 则 舍弃 。 例 如 ， 对 比 4749 和 list4749， 需 要 保留 网 
址 http://www.xx.cn/ask/question 4749.html。 数 据 清洗 结果 中 还 发 现 类 似 http://www.x x.cn/ask/browse.html 和 http://www.x x/ask/browse_s25.html 的 访问 网 址 ， 该 类 网 址 都 属于 用 户 的 浏览 网 
址 ， 并 不 属于 某 一 个 具体 的 咨询 或 知识 网 页 ， 因 此 推荐 算法 的 模型 构建 应 舍弃 该 类 记录 。 根 据 对 数据 变换 阶段 的 分 析 ， 整 理 成 处 理 规 则 如 下 : 


1) 去 掉 访问 网 址 中 包含 browse.htmlI 或 browse 的 记录 。 

2) 如 果 访 问 网 址 中 包含 ask/question 关键 字 且 ask/question 与 .html| 之 间 的 字符 串 全 为 数字 ， 则 保留 ; 否则 ask/question 与 .html 之 间 的 字符 串 不 全 为 数字 ， 舍 弃 。 
3) 翻 页 处 理 ， 针 对 类 似 上 述 同一 用 户 (这 里 指 相同 IP) 的 用 户 翻 页 网 址 表 中 的 记录 ， 如 果 记录 访问 时 间 少 于 5 分 钟 ， 就 按 翻 页 来 处 理 。 

3. 属 性 归 约 


根据 推荐 系统 模型 的 输入 数据 需要 ， 需 对 处 理 后 的 数据 进行 属性 归 约 ， 提 取 模 型 需要 的 属性 。 本 案例 中 模型 需要 的 数据 属性 为 用 户 ID、 用 户 访问 的 网 页 、 访 问 的 时 间 戳 。 因 此 将 其 他 的 属性 删除 ， 只 保 
留用 户 ID、 用 户 访问 的 网 页 及 时 间 戳 数据 ， 其 输入 数据 集 示例 如 表 8-12 所 示 。 


表 8-12 属性 归 约 后 数据 集 


ĦA ID 网 页 时 间 E 


1665329212.1408435380 | http://www.lawtime.cn/info/hetong/htfqwjd/20110120109204.html 1408435378361 


533240726.1376897428 http://www.lawtime.cn/info/laodong/ldzy/1b/20140103141670.html 
135675932.1408435387 http://www.lawtime.cn/info/shuifa/qysds/2011121674117.html 

714942021.1408434842 //www.lawtime.cn/ask/question 4481075.html 

720175499.1408435379 /www.lawtime.cn/ask/question 7707845.html 

1134612159.1408435382 //www.lawtime.cn/ask/question 3596455.html 1408435378484 
1654830710.1408435380 //www.lawtime.cn/ask/question 6432279.html 1408435378817 


690909414.1408432296 //www.lawtime.cn/ask/question 6701899.html 1408435378817 


4. 实 验 数 据 预 处 理 

根据 本 节 “1 .数据 清洗 ”中 的 数据 清洗 规则 ， 使 用 Pig 完 成 以 下 实验 。 实 验 内 容 包 括 数 据 清洗 ， 数 据 变换 ， 属 性 归 约 。 实 验 步骤 如 下 : 
1) 删除 无 点 击 .html 行 为 的 用 户 记录 ， 统 计 删 除 记录 及 剩余 记录 数 。 

2) 基于 步骤 1) 的 结果 ， 删 除 中 间 类 型 网 页 ( 带 有 midques KEF) ， 统 计 删 除 记 录 及 剩余 记录 数 。 

3) 基于 步骤 2) 的 结果 ， 删 除 网 址 中 带 有 “? ”类 型 数据 ， 统 计 删 除 记 录 及 剩余 记录 数 。 

4) 基于 步骤 3) 的 结果 ， 删 除法 律 快车 -律师 助手 记录 ， 页 面 标题 包含 “法 律 快车 -律师 助手 。 关 键 字 ， 统 计 删 除 记录 及 剩余 记录 数 。 
5) 基于 步骤 4) 的 结果 ， 筛 选 模 型 所 需 数据 (咨询 、 知 识 、 法 规 专 题 页 面 数 据 ) ， 统 计 删 除 记 录 及 剩余 记录 数 。 

6) 基于 步骤 5) 的 结果 ， 删 除 重复 数据 (同一 时 间 同 一 用 户 ， 访 问 相同 网 页 ) ， 统 计 删除 记录 及 剩余 记录 数 。 

7) 将 步骤 1) ~ 5) 的 处 理 结果 输出 到 HDFS， 并 使 用 MapReduce 删 除 重复 数据 (同一 时 间 同 一 用 户 ， 访 问 相同 网 页 ) ， 输 出 处 理 后 的 结果 。 
8) 依据 数据 变换 中 的 处 理 规则 处 理 数 据 ， 同 时 筛选 模型 需要 的 属性 数据 。 

5 .数据 编码 


为 了 节省 数据 存储 空间 以 及 加 速 模型 建 模 效 率 ， 可 先 把 数据 预 处 理 后 的 数据 进行 编码 。 当 然 这 里 的 数据 编码 不 是 指 通信 中 的 数据 编码 ， 而 是 指 将 数据 从 一 种 表示 形式 变 为 另 一 种 表现 形式 。 由 于 用 户 以 
及 网 页 URL 均 使 用 字符 串 表 示 ， 占 用 存储 空间 较 大 ， 并 且 在 计算 分 析 的 时 候 效 率 较 低 ， 所 以 可 以 考虑 把 其 转换 为 数值 类 型 。Integer 类 型 可 以 表示 的 最 大 值 为 2147483647， 符 合 原始 数据 的 范围 大 小 ， 所 以 


考虑 把 其 转换 为 Integer 类 型 。 
编码 思路 如 下 : 
1) 求 得 原始 用 户 以 及 URL 的 去 重 值 ， 并 按照 ASCII 值 进行 排序 。 
2) 使 用 排序 后 的 原始 用 户 以 及 URL 的 下 标 值 来 代替 该 用 户 或 URL。 
3) 使 用 编码 后 的 值 替换 原始 数据 中 的 值 。 
使 用 Spark 对 原始 数据 进行 上 述 编码 处 理 ， 其 代码 如 代码 清单 8-14 所 示 。 


代码 清单 8-14 ”原始 数据 编码 及 蔡 换 


// 加 载 数据 ， 原 始 数 据 : ”timestamp,user,url,urlType 

val rawDataPath = "hdfs://server1:8020/user/root/law data clean.txt" 
val dataAll Sc.textFile(rawDataPath).map(x => val fields-x.split(","); (fields(0),fields(1),fields(2),fields(3))] 
// 排序 去 重 后 用 户 、URI 数 据 


val userUrl = dataAll.map(x => (x. 2,x. 3)) 


val allUserList = userUrl.map(data-»data. 1).distinct.sortBy(x => x) 

val allUrlList = userUrl.map(data-»data. 2).distinct.sortBy(x => x) 

// 构造 用 户 、URI 编 码 

val allUserIdList = allUserList.zipWithIndex.map (data=> (data. 1,data. 2.toInt)) 
Va] IdList = allUrlList.zipWithIndex.map (data=> (data. 1,data. 2.toInt)) 


allUr] 
// 保存 编码 数据 
allUserIdList.map(x => x. 1 +","+x. 2).repartition(1).saveAsTextFile ("/user/root/law userlist") 
allUrlIdList.map(x => x. 1 +","+x. 2).repartition(1).saveAsTextFile ("/user/root/law urllist") 
// 蔡 换 原始 数据 i i T 
val replacedDataAll = dataAll.map(x => (x. 2, (x. 1,x. 3,x. 4))).join(allUserIdList).map(x => (x. 2. 1. 2, (x. 2. 1. 1,x. 2. 2,x. 2. 1. 3))).join(allUrlIdList).map(x => (x. 2. 1 
// 保存 编码 后 数据 Aun 


replacedDataAll.saveAsTextFile ("/user/root/law data replaced") 


更 新 后 的 数据 如 表 8-13 所 示 。 


表 8-13 ”数据 编码 后 数据 集 
ĦA ID 时 间 g 


10372520 2 878 057 1408435378361 


z] 
AH 


22845225 3 016 874 1408435378868 
5560869 3 152 389 1408435378929 
25675969 1408435378397 
2099108 1408435378484 
10209628 1408435378817 
25300943 1408435378817 


0.4.5 ”模型 构建 


日 志 数 据 经 过 数据 预 处 理 后 ， 得 到 用 于 建 模 的 数据 。 这 里 针对 不 同 的 数据 ( 即 咨询 和 知识 数据 ) 分 别 建 立 spark ALS 模 型 、Spark ALS Implicat 模 型 、 基 于 用 户 的 协同 过 滤 模 型 、 基 于 项 目的 协同 过 滤 模 
型 。 针 对 这 些 模型 ， 使 用 评价 系统 来 对 其 进行 评价 ， 对 比 各 种 模型 评价 结果 ， 得 到 最 优 模型 进行 评价 。 


1. 基 于 Spark ALS 和 Spark ALS Implicit 建 模 


本 节 介 绍 ALS 推 荐 算法 ，ALS 是 alternating least squares 的 缩写 ， 意 为 交 蔡 最 小 二 乘法 ， 该 方法 常用 于 基于 和 矩 孟 分 解 的 推荐 系统 中 。 例 如 : 将 用 户 (user) 对 项 目 (item) 的 评分 和 矩阵 分 解 为 两 个 矩 
EE: 一 个 是 用 户 对 项 目 隐 含 特征 ( 指 的 是 使 用 这 些 隐 合 的 特征 可 以 较 好 地 表示 这 个 用 户 的 评价 体系 ) 的 偏好 和 矩 阵 ， 另 一 个 是 项 目 所 包含 的 隐 含 特征 ( 指 的 是 使 用 这 些 隐 合 的 特征 可 以 较 好 地 表示 这 个 项 目 ) 
的 和 矩阵。 在 这 个 矩阵 分 解 的 过 程 中 ， 评 分 缺失 项 会 被 填充 ， 也 就 是 说 可 以 基于 这 个 填充 的 评分 来 对 用 户 没 有 评价 过 的 商品 进行 排序 ， 得 到 预测 填充 评分 最 高 的 多 个 项 目 ， 来 对 用 户 进行 推荐 。 


对 于 一 般 的 用 户 项 目 和 矩阵 R (mxn) ，ALs 推 荐 算法 冒 人 在 寻找 两 个 低 维 矩 阵 X (mxk) SIBBEEY (nxk) ， 使 得 矩阵 X 和 和 矩 阵 Y 的 乘积 逼近 R (mxn) , BD: 


Ri xm XpnxkY nx ( $-] ) 


其 中 ，R (mxn) 代表 用 户 对 项 目的 评分 矩阵，X (mxk) 代表 用 户 对 隐 含 特征 的 偏好 和 矩阵 ，Y (nxk) ZemBIEBIEXEES A EHIEBSABEE, TREFA. mA, —RBEHNK« «min (m, n) , BOK 
远 远 小 于 用 户 以 及 商品 的 个 数 。 


为 了 找到 尽 可 能 地 通 近 R 的 低 秩 和 矩阵 X 和 Y， 需 要 最 小 化 下 面 的 平方 误差 损失 国 数 : 


L(X,Y)—». ul (ru X,» ( 8-2 ) 


其 中 ，xu (1xk) 表示 用 户 u 偏 好 的 隐 含 特征 向 量 ，yi (1xk) 表示 项 目 i 包 含 的 隐 仿 特征 向 量 ，ru 表 示 用 户 u 对 项 目的 评分 ， 向 量 xu 和 yi 的 内 积 *" 是 用 户 u 对 商品 i 评分 的 近似 。 


损失 函数 一 般 需要 加 入 正则 化 项 来 避免 过 拟 合 等 问题 ， 比 如 使 用 L2 正 则 化 ， 则 式 (8-2) 可 改写 为 : 


L(X,Y) —Y, u(ru—xuyi) tA + ly) ( 8-3) 


其 中 是 正则 化 项 的 系数 。 


那么 ， 如 何 求解 低 秩 矩 了 嘿 X 和 Y 呢 ? 


求解 低 秩 和 矩阵 X 和 Y 可 以 先 固定 其 中 的 一 个 低 秩 矩阵 ， 比 如 矩阵 Y (例如 随机 初始 化 矩阵 Y) ， 然 后 利用 式 (8-2) 先 求 解 德 阵 X， 然 后 固定 矩阵 X， 反 过 来 求解 德 阵 Y， 如 此 交 蔡 往复 直至 收敛 ， 即 所 谓 的 
交 蔡 最 小 二 乘 求解 法 。 


先 固定 矩阵 Y， 将 损失 函数 L (X, Y) 对 xu 求 俩 导 ， 并 令 导 数 = 0， 得 到 : 


x,—(Y Y--AD Y r, ( 8-4 ) 
y=(X X--AID) Xr ( 8-5 ) 


其 中 ,ru (1xn) 是 R 的 第 u 行 , m (1xm) ZRBSSBIZI, Ek kBJERAZBER, 


迭代 步骤 : 首先 随机 初始 化 矩阵 Y， 利 用 式 (8-4) 更 新 得 到 X， 然 后 利用 式 


yi=(X X--AD) X r, ( 8-6) 


更 新 Y， 直 到 均 方 根 误 差 RMSE 变 化 很 小 或 者 到 达 最 大 迭代 次 数 。RMSE 的 定义 如 式 (8-7) 所 示 。 


20 A . R—XY ( 8-7) 


RMSE-— 


那么 ， 怎 么 调用 Spark 模 型 推荐 呢 ? 

预 处理 后 的 数据 如 表 8-13 所 示 ， 由 于 ALs 推 荐 算法 需要 把 原始 数据 整理 成 用 户 项 目 评分 矩阵 的 形式 ， 所 以 这 里 需要 添加 额外 的 处 理 规则 。 对 原始 数据 采用 映射 的 方法 把 数据 归 约 到 1 ~ 95， 规则 如 下 : 
1) 访问 次 数 在 2 次 以 下 的 ， 直 接 删 除 。 

2) 访问 次 数 在 2 次 及 2 次 以 上 ，5 次 以 下 ， 归 约 为 2。 

3) 访问 次 数 在 5 次 及 5 次 以 上 ，10 次 以 下 ， 归 约 为 3。 

4) 访问 次 数 在 10 次 及 10 次 以 上 ，20 次 以 下 ， 归 约 为 4。 

5) 访问 次 数 在 20 次 以 上 ， 归 约 为 5。 

参考 上 述 映射 规则 ， 对 原始 数据 进行 处 理 ， 可 得 到 需要 的 数据 ， 处 理 过 程 的 Spark 脚 本 如 代码 清单 8-15 所 示 。 

代码 清单 8-15 ”Spark 归 约 模 型 数据 


// ”数据 加 载 user,url 
/** 


* 从 HDFS 读 取 数 据 ， 转 换 为 (User, URL, Rating) ,以 splitVisitedNumaArray 进 行 数 据 过 滤 

* (iparam sc : SparkContext 

* Qparam inputDir 原始 数据 路 径 

* Qparam splitVisitedNumArray 如 (2,5,10,30)， 代 表 分 割 次 数 的 点 
* @param splitVisitedNumValues 如 (0,2,3,4,5)， 代 表 分 割 次 数 段 对 应 的 值 ， 需 要 比 split-VisitedNumArray 多 1 个 
* Qreturn 那么 访问 次 数 为 2 以 下 的 次 数 被 映射 为 0， 并 且 被 去 除 ， 次 数 在 [2, 5) 的 分 数 为 2， 次 数 在 [5,10) 的 分 数 为 3 

* 次 数 为 [10, 30) 的 分 数 为 4， 次 数 在 [30, +Max) 分 数 为 5 

* 

/ 

def initRatingWithNum(sc:SparkContext,inputDir: String, splitVisitedNumArray: Array[Int],splitVisitedNumValues : Array[Int]): RDD[(Int, Int, Int)] = ( 

val dataRaw Sc.textFile(inputDir).map ( x => val fields = x.slice(1, x.size - 1).split(","); 
(fields (0) .toInt, fields(1).toInt) } 
val dataCount = dataRaw.map(x => (x, 1)).reduceByKey((x, y) => 

/ 


(x 十 y)). 
过 滤 挥 最 小 次 数 的 值 


filter(x => x. 2 >= splitVisitedNumArray (0)) / 
//Array(((-1,2),0), ((2,5),2), ((5,10),3), ((10,30),4), ((30,2147483647),5)) 
val spliterPointWithValue = (-1 +: splitVisitedNumArray).zip(splitVisitedNumArray :+ Integer.MAX VALUE). 


zip(splitVisitedNumValues) 
// dataCount : RDD[((Int,Int),Int)], splitPointWithValue filter 得 到 的 数据 有 且 只 有 一 个 ， 所 以 使 用 下 标 0 不 会 越界 
dataCount.map(x => (x. 1. 1,x. 1. 2, 
spliterPointWithValue.filter(y => y. 1. 1 >= x. 2 && y. 1. 2 > x. 2) (0). 2)) 
} 


} 
// 数据 映射 


val data = initRatingWithNum (sc, "/user/root/law info data data.txt”,Array(2,5,10,20),Array(0,2,3,4,5),) 


加 载 经 过 映射 后 的 数据 ， 并 设置 参数 即 可 建立 模型 ， 如 代码 清单 8-16 所 示 。 
代码 清单 8-16 ”建立 模型 


// 数据 加 载 
val data = initRatingWithNum(sc,"/user/root/law fagui data data.txt",Array(2,5,10,20),Array(0,2,3,4,5),) 
// 建 模 


val numIterations = 10 
val lambda -0.01 
val model = ALS.train(training,rank,numIterations,lambda) 


n 
// 如 果 使 用 implicit 进 行 建 模 ， 则 添加 下 面 的 代码 


val alpha = 0.01 
val modell = ALS.trainImplicit (ratings, 
2. 基 于 用 户 的 协同 过 滤 建 模 


基于 用 户 的 协同 过 滤 ， 


即 通 


(1) 计算 相似 度 


用 户 之 间 的 相似 度 通 
算 公 式 ， 但 在 实际 使 用 中 ， 需 


Wl 


(2) 寻找 与 目标 用 户 最 


在 计算 出 各 个 用 户 之 间 的 相似 度 后 ， 可 以 找到 所 有 与 目标 用 户 的 相似 度 大 于 某 一 阅 值 的 近 


(3) 通过 这 Kk 个 


4Bz 
FE 


根据 上 述 算法 原理 ,编写 Spark 的 基于 用 户 的 协同 过 


代码 清单 8-17 Spark 基 于 用 户 的 协同 过 
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如 果 现 有 相似 度 计算 


d 滤 算法 ， 其 代码 如 代码 清单 8-17 所 示 。 
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3. 基 于 项 目的 协同 过 
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// 存储 模型 


dataModel.repartition (12) 


prin 
SC.S 


top() 


才 滤 推荐 算 


tln("Model saved") 


才 滤 建 模 
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.SaveAsObjectFil 
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temNum)) 
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其 基本 思想 是 用 户 项 目的 预测 评分 可 以 由 该 用 户 对 与 该 项 目 相似 度 最 高 的 k 个 
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ByKey ( 
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得 到 。 相 似 度 的 计算 可 以 使 用 任何 向 量 相似 度 


趣 的 用 户 也 都 对 项 目 2 


相似 项 目 


兴趣 


推 存 


图 8-7 基于 项 目的 协同 过 滤 原 理 


根据 上 述 原理 ,编写 Spark 的 基于 项 目的 协同 过 滤 算 法 ， 其 代码 如 代码 清单 8-18 所 示 。 


代码 清单 8-18 ”Spark 基 于 项 目的 协同 过 滤 算 法 实现 


package com.tipdm.itembased 
import com.tipdm.utils.SparkUtils 
import scala.math. | 


* 创建 基于 项 目的 协同 过 滤 模 型 ， 需 要 输入 以 下 参数 
* trainDataPath: 训练 数据 (userid, itemid) 

* minVisitedNumPerUser: 单 用 户 最 小 访问 item 的 数量 
* recommendItemNum: 单个 物品 的 最 大 推荐 数目 
* 
* 
* 


modelPath: 模型 存储 目录 
trainFilteredPath: 过 滤 后 的 训练 数据 存储 目录 
splitter: 输入 原始 数据 分 隔 符 


* 
/ 
object ModelCreate { 
def main(args:Array[String]) = { 
if (args.length != 6) { 
System.err.println("Usage: com.tipdm.itembased.ModelCreate «trainDataPath» <minVisitedNumPerUser> "+ 


"<recommendItemNum> <modelPath> <trainFilteredPath> <splitter>") 


} 

// 处 理 参数 

val trainDataPath = args (0) 

val minVisitedNumPerUser = args (1) .toInt 
val recommendlItemNum = args (2).toInt 
val modelPath = args (3) 

val trainFilteredPath = args (4) 

val splitter - args(5) 

val appName = " ItemBased CF Create Model " 
val sc = SparkUtils.getSparkContext (appName) 
sc.setLogLevel ("WARN") 


// 加 载 训练 集 数 据 
val trainDataRaw- sc.textFile (trainDataPath) .map{x=>val fields-x.slice(1,x.size-1).split(splitter); (fields (0) .toInt,fields(1) .toInt) } 
println("trainDataRawrecords count : " + trainDataRaw.count) // 
val trainData = trainDataRaw.groupBy( . l).filter(data-»data. 2.toList.size»- minVisitedNumPerUser).flatMap( . 2).cache() 
// (user, item, userItemNum) 
val trainUserItemNumPre = trainData.countByValue () .toArray 


// (item,itemSum) 

val trainltemNumPre = trainData.values.countByValue().toArray 

// (item, (user,userItemNum)) 

// userItemNum 次 数 大 于 200， 设 定 为 200 

val trainUserItemNum = sc.parallelize(trainUserItemNumPre) .map (data-»( 
val item = data. 1. 2; 

val user = data. 1. 1; 

var userlItemNum = data. 2.toInt; 

if (data. 22200) tuserItemNum = 200} 

(item, (user,userItemNum)) 


}) 

// (item,itemSum) 

// itemSum 次 数 大 于 300， 设 定 为 300 

val trainItemNum =sc.parallelize (trainItemNumPre) .map (data=>{ 
val item = data. 1; 
var itemSum =data. 2; 

if (data. 2>300) {itemSum = 300] 

(item, itemSum) 


}) 
// (user, item, userItemNum, itemSum) 
val itemUserBase = trainUserItemNum.join(trainlItemNum). 
map (x=> (x. 2. 1. 1, (x. 1,x. 2. 1. 2,x. 2. 2.toInt))).cache() 


// [(user, ((itemA,userltemANum,itemASum), (itemB,userlItemBNum,itemBSum)))] 

val itemMatrix = itemUserBase.join(itemUserBase).filter((f => f. 2. 1. 1 < f. 2. 2. 1)) 
// (itemA,itemB), (userItemANum, itemASum, userlItemBNum, itemBSum) 

val itemSimilarityBase = itemMatrix.map(f-»((f. 2. 1. 1,f. 2. 2. 1),(f. 2. 1. 2,f. 2. 1. 3,f. 2. 2. 2,f. 2. 2. 3))) 
// calculate similarity by using Jaccard 


val itemSimilarityPre = itemSimilarityBase.map(data => ( 
val iteml-data. 1. 1 
val item2- data. 1. 2 
val similarity = (min(data. 2. 1, data. 2. 3))*1.0/(data. 2. 2 + data. 2. 4) 
((iteml1, item2), similarity) 

)) . combineByKey ( 
x=>X, 
(x:Double, y:Double)=> (x+y), 
(x:Double, y:Double)=> (x+y) ) 

// item similarity (item, (item, similarity) ) 

val itemSimilarity = itemSimilarityPre.map (x=>((x. 1. 2,x. 1. 1),x. 2)).union(itemSimilarityPre). 

map (x=> (x. 1. 1, (x. 1. 2,x. 2))) 

// 生成 item 推 荐 模型 (item,List (item)) 


val dataModelPre = itemSimilarity.combineByKey( 
(x: (Int,Double)) -» List(x), 
(c:iList[(Int,Double)], x:(Int,Double)) => c :+ x , 
(cl:List[(Int,Double)], c2:List[(Int,Double)]) => cl ::: c2) 
// 用 模型 匹配 trainData 
val dataModel = trainData.map(x-»(x. 2,x. 1)).join(dataModelPre) 


// 按 相似 度 排 序 ， 生 成 推荐 结果 集 ==> (user,List (item)) 


val finalModel = dataModel.flatMap (joined => { 
joined. 2. 2.map(f => (Joined. 2. 1,f. 1,f. 2))}).sortBy(x => (X. l;x. 3),false). 
map(x-»(x. 1,x. 2)). 
combineByKey( 
(x:Int) => List(x), 
(c:iList[Int], x:Int) => c :+ X, 


Int) 
(cl:List[Int], c2:List[Int]) => cl ::: c2).map(x => (x. 1,x. 2.take (recommendItemNum))) // 存储 模型 
finalModel.repartition(12).saveAsObjectFile (modelPath) 


// 存储 训练 数据 
trainData.saveAsTextFile (trainFilteredPath) 
sc.stop() 


4. 模 型 评价 & 最 优 模型 


好 的 推荐 系统 能 够 满足 用 户 的 需求 ， 推 荐 其 感 兴趣 但 不 全 是 热门 的 物品 ， 同 时 也 需要 用 户 反馈 意见 帮助 完善 其 推荐 系统 。 因 此 ， 好 的 推荐 系统 不 仅 能 预测 用 户 的 行为 ， 而 且 能 帮助 用 户 发 现 可 能 会 感 兴 
趣 ， 但 却 不 易 被 发现 的 物品 。 同 时 ， 推 荐 系统 还 应 该 帮助 商家 将 长 尾 中 的 好 商品 发 掘 出 来 ， 推 荐 给 可 能 会 对 它们 感 兴趣 的 用 户 。 在 实际 应 用 中 ， 评 测 推荐 系统 是 必 不 可 少 的 。 评 测 指标 主要 来 源 于 3 种 评测 推 
荐 效果 的 实验 方法 ， 即 离线 测试 、 用 户 调查 和 在 线 实验 。 


离线 测试 是 通过 从 实际 系统 中 提取 数据 集 ， 然 后 采用 各 种 推荐 算法 对 其 进行 测试 ， 获 得 各 个 算法 的 评测 指标 。 这 种 实验 方法 的 好 处 是 不 需要 真实 用 户 参 与 。 

wa 离线 测试 的 指标 和 实际 商业 指标 存在 差距 ， 比 如 预测 准确 率 和 用 户 满意 度 之 间 就 存在 很 大 差别 ， 高 预测 准确 率 不 等 于 高 用 户 满意 度 。 所 以 当 推 荐 系统 投入 实际 应 用 之 前 ， 需 要 利用 测试 的 推荐 系 
统 进行 用 户 调 查 。 

利用 测试 的 推荐 系统 调查 真实 用 户 ， 观 察 并 记录 他 们 的 行为 ， 并 让 他 们 回答 一 些 相关 的 问题 。 通 过 分 析 用 户 的 行为 及 反馈 来 判断 测试 推荐 系统 的 好 坏 。 

在 线 测试 顾名思义 就 是 直接 将 系统 投入 实际 应 用 中 ， 通 过 不 同 的 评测 指标 比较 不 同 的 推荐 算法 的 结果 ， 比 如 点 击 率 、 跳 出 率 等 


由 于 本 例 中 的 模型 是 采用 离线 的 数据 集 构建 的 ， 因 此 在 模型 评价 阶段 采用 离线 测试 的 方法 获取 评价 指标 。 因 为 不 同 表现 方式 的 数据 集 其 评测 指标 也 不 同 ， 针 对 不 同 的 数据 方式 ， 其 评测 指标 的 公式 如 表 
8-14 所 示 。 


表 8-14 评测 指标 表 


预测 准确 E Pa ^ui MAE= -Y lo^ ma ui Fail 

f 2PR 
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在 某 些 电子 商务 的 网 站 中 ， 存 在 对 物品 进行 打分 的 功能 。 在 存在 此 种 数据 的 情况 下 ， 如 果 要 预测 用 户 对 某 个 物品 的 评分 ， 需 要 采用 的 数据 表现 方式 为 预测 准确 度 ， 其 中 评测 的 指标 有 均 方 根 误差 
(RMSE) , 平均 绝对 误差 (MAE) 。 其 中 rwi 代 表 用 户 u 对 物品 的 实际 评分 ，7%i 代 表 推 荐 算法 预测 的 评分 ，N 代 表 实际 参与 评分 的 物品 总 数 。 


同时 在 电子 商务 网 站 中 ， 用 户 只 有 二 元 选择 ， 比 如 : 喜欢 与 不 喜欢 ， 浏 览 与 否 等 。 针 对 这 类 型 的 数据 预测 ， 就 要 用 分 类 准确 度 ， 其 中 的 评测 指标 有 准确 率 (P, precesion) ， 它 表示 用 户 对 一 个 被 推荐 
产品 感 兴趣 的 可 能 性 。 召 回 率 (R, recall) 表示 一 个 用 户 喜 欢 的 产品 被 推荐 的 概率 。F1 指 标 综 合 考 虑 了 准确 率 与 召回 率 因 素 ， 能 更 好 地 评价 算法 的 优 务 (FIRA, WAARD) 。 其 中 相关 的 指标 说 明 如 
表 8-15 所 示 。 


表 8-15 分 类 准确 度 指 标 说 明 表 
Tn 测 | 


& d 


根据 上 述 指标 ， 计 算 评价 指标 召回 率 、 进 度 公式 如 下 : 

: 召回 率 recall 二 了 TP/ (TP 十 FN) ， 意 思 为 : 正 样本 预测 结果 数 / 正 样本 实际 数 。 

` 精度 precision 二 TP/ (TP 十 FP) ， 意 思 为 : 正 样 本 预测 结果 数 /推荐 物品 数 

经 过 预 处 理 后 的 数据 ， 表 次 分 为 知识 类 、 咨 询 类 和 法 规 类 数据 ， 针 对 每 类 数据 都 采用 统一 的 处 理 方式 。 以 下 代码 以 法 规 类 数据 为 示例 进行 演示 (其 他 类 参考 法 规 类 数据 处 理 方式 即 可 ) 。 
法 规 类 数据 首先 按照 时 间 戳 分 为 3 部 分 ， 分 别 是 训练 集 、 验 证 集 和 测试 集 ， 对 应 占 比 为 80%、10?%6、10%。 其 分 割 代码 如 代码 清单 8-19 所 示 。 


代码 清单 8-19 知识 类 数据 分 割 为 训练 集 、 验 证 集 、 测 试 集 


// 分 割 点 : 编码 数据 : ”timestamp,user,url,urlType 
val data = sc.textFile("/user/root/law data replaced") .map{x => val fields-x.split(","); (fields (0) .toLong, fields (1) .toInt,fields(2) .toInt,fields (3) .toDouble) } 


val timestamp = data.map( . 1) 
val num = timeStamp.count 
val firstSplitPoint = num * 0.8 


val secondSplitPoint = num * 0.9 


// 分 割 数 据 为 训练 集 、 测 试 集 及 验证 集 
val train = data.filter(x => x. 1 < firstSplitPoint).map(x => (x. 2,x. 3,x. 4)) 
val validation = data.filter(x => x. 1 >= firstSplitPoint && x. 1 < second-SplitPoint) .map (x => (x. 2,x. 3,x. 4)) 
val test = data.filter(x => x. 1 > secondSplitPoint).map(x => (x. .2,X. 3,x. 4)) 


训练 集 用 于 训练 模型 ， 验 证 集 用 于 评估 模型 以 找到 最 优 模型 ， 测 试 集 对 最 优 模型 进行 验证 。 在 最 优 模型 选择 过 程 中 ， 不 同 算法 需要 采用 不 同 的 评估 方式 : 针对 Spark ALS 和 Spark ALS Implicit 模 型 采用 
均 方 根 误差 (RMSE) 来 进行 评估 、 针 对 基于 用 户 / 项 目的 协同 过 渡 模 型 采用 F1 值 来 进行 评估 ， 同 时 ， 由 于 Kk 值 的 选取 会 造成 F1 值 的 变化 ， 所 以 针对 各 个 算法 的 最 优 模型 的 评估 需要 综合 多 个 K 值 并 采用 F1 值 
进行 评估 ， 具 体 评估 方法 见 下 文 : 


Spark ALS&Spark ALS Implicit 


针对 Spark ALS 算 法 以 及 Spark ALS Implicate 算 法 ， 采 用 均 方 根 误差 来 进行 模型 寻 优 ， 其 思路 如 下 : 


1) 定义 计算 RMSE 函 数 ， 该 函数 接收 一 个 模型 以 及 测试 数据 作为 参数 ， 根 据 模 型 预测 测试 数据 ， 并 与 原始 测试 数据 进行 对 比 ， 得 到 RMSE。 


2) 针对 让 


练 集 、 验 证 集 、 测 试 集 使 用 本 节 第 一 部 分 中 的 映射 方法 处 理 各 个 数据 集 。 


3) 设置 建 模 参 数 ， 采 用 循环 的 方式 遍历 每 组 参数 ， 针 对 每 组 参数 建立 一 个 模型 ， 计 算 求 得 RMSE， 如 果 当 前 模型 的 RM SE 小 于 定义 的 最 小 的 RMSE， 则 赋值 对 应 参数 。 


4) 循环 结束 得 到 最 优 模 型 以 及 该 模型 的 建 模 参数 。 
代码 清单 8-20 为 Spark ALS 算 法 寻找 最 优 模 型 的 代码 。 
代码 清单 8-20 Spark ALS 模 型 寻 优 


大 大 

* 根据 模型 及 测试 数据 集 计 算 均 方 根 误差 
* Qparam model 模型 

* (param data 测试 数据 
* Qreturn 均 方 根 误差 


ud 


def computeRMSE (model: MatrixFactorizationModel, data: RDD[Rating]): Double = { 
val usersProducts = data.map(x => (x.user, x.product)) 
val ratingAndPredictions1 = data.map { case Rating (user, product, rating) => ((user, product), rating) } 
val ratingsAndPredictions = ratingAndPredictionsl.join(model.predict (usersProducts).map { case Rating (user, product, rating) => ((user, product), rating) j).values 
math.sqrt(ratingsAndPredictions.map(x => (x. 1 - x. 2) * (x. 1 - x. 2)).mean()) 


* 建立 ALS 模 型 ， 寻 求 最 佳 参数 

* Qparam rankList rank 值 列表 

* Qparam iteration 循环 次 数 

* Qparam lamdbaList lambga 值 列表 
* 

* 

* 


B 
Di 


(param trainRatingSet 训练 数据 
[i 


@param testRatingSet Miky 
@param outPutDir 参数 输出 目录 


zm 


def getModelParameter(rankList: Array[(Int)], iteration: Int, lamdbalList: Array[(Double)], 


var bestRMSE = 999.00 
var bestRank = 0 
var bestLambda = 0.0 


for (rank <- rankList) { 
for (lambda <- lamdbaList) { 


val testModel - ALS.train(trainRatingSet, rank, iteration, lambda) // Train Model 


val testRmse = computeRMSE(testModel, testRatingSet) // Calculate RMSE 


//println(rank*": "+lambda+": "*alphat"-»"-testRmse) 
if (testRmse < bestRMSE) { 
tRMSE = testRmse 
bestRank = rank 
tLambda - lambda 


println("BestRank:Iteration:BestLambda:BestAlpha => BestRMSE") 
println(bestRank + ": " + iteration + ": "+ bestLambda + " => " + best-RMSE) 
val result = Array(bestRank + "," + iteration + "," + bestLambda) 


Sc.parallelize (result).repartition(1).saveAsTextFile (outPutDir); 


val listRank = Array (10,20,30,40,50) 

val iteration = 10 

val listLambda = Array(0.001,0.005,0.01,0.03,0.09,0.3,0.6,1.0,2.0) 
val parameterPath = "/user/root/als/fagui/parameter" 


val minVisitTrain = Array(3,5,10,20) // train splitPoint 

val minVisitValidate = Array(2,5,10,20) // validate splitPoint 
val pointValues - Array(0,2,3,4,5) 

// 参考 代码 清单 8-15， 处 理 数 据 


// 建立 ALS 模 型 ， 以 RMSE 值 进行 评测 寻 优 ， 把 最 佳 参数 组 存储 到 HDFS 目 录 


getModelParameter(listRank, iteration, listLambda, train, validation, parame-terPath) 


trainRatingSet: RDD[Rating], testRatingSet: RDD[Rating], outPutDir: String) = ( 


由 于 minVisitTrain (在 训 


练 集中 每 个 用 户 最 少 访问 的 URL 个 数 ) 以 及 minVistiValidate (在 验证 集中 每 个 用 户 最 少 访问 URL 个 数 ) 参数 设置 不 同 (设置 minVisitTrain 和 minVisit Validate 参 数 可 以 对 数 


据 进 行 一 步 过 滤 ， 过 滤 掉 不 合理 数据 ) ， 会 导致 最 终 有 多 组 最 优 模型 的 参数 。 这 里 设置 多 组 参数 值 ， 分 别 得 到 各 组 参数 值 ， 最 优 模 型 参数 如 表 8-16 所 示 。 


表 8-16 Spatk ALS 算 法 知识 类 数据 模型 寻 优 参数 结果 


训练 | 验证 集 参数 | 值 参数 最 优 Rank 值 最 优 Lambda 值 


(3,5,10,20) | (1,5,10,20) |( 0,2,3,4,5) 30 0.6 


(4,5,10,20) | (3,5,10,20) |( 0,2,3,4,5) 


(4,5,10,20) | (4,5,10,20) |( 0,2,3,4,5) 


代码 清单 8-21 所 示 为 Spark ALS Implicate 算 法 模型 寻 优 代 码 。 


代码 清单 8-21 Spark ALS Implicate 模 型 寻 优 


0.6 


0.6 
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// def 


建立 ALS Implicit 模 型 ， 寻 求 最 佳 参数 
Gparam rankList rank 值 列表 
Gparam iteration 循环 次 数 

Gparam lamdbaList lambda 值 列表 
Gparam alphaList alpha 值 列表 
Gparam trainRatingSet 训练 数据 身 
(param testRatingSet 测试 数据 集 
aparam outPutDir 参数 输出 目录 


A 


SS 
*oxo b oot xo X xoxo X 


icd 


def getModelParameter(rankList: Array[(Int)], iteration: Int, lamdbaLlist: 


computeRMSE (model: MatrixFactorizationModel, data: RDD[Rating]): Double - 
* 


var bestRMSE = 999.00 
var bestRank = 0 
var bestLambda - 0.0 
var bestAlpha = 0.0 
for(rank«-rankList) { 
for (lambda«-lamdbalList) { 
for (alpha«-alphaList)( 
val testModel = ALS.trainlImplicit (trainRatingSet,rank,iteration, lambda, a] 
val testRmse = computeRMSE (testModel,testRatingSet) // Calcul 
if (testRmse < bestRMSE) { 
bestRMSE = testRmse 
bestRank = rank 
tLambda = lambda 


| pha) 


late RMSE 


??? // 参考 代码 清 


// Train Model 


单 8-20 代 码 


Array[(Double)], alphaList:Array[(Double)], trainRatingSet: RDD[Rating], 


testRatingSet: RDD[Rating], c 


bestAlpha = alpha 
}}}} 
println("BestRank:Iteration:BestLambda:BestAlpha => BestRMSE") 
println(bestRank + ": " + iteration + ": "+ bestLambda + " => " + bestRMSE) 
val result = Array(bestRank + "," + iteration + "," + bestLambda) 
SCc.parallelize (result).repartition(1).saveAsTextFile (outPutDir); 


val listRank = Array(5,15,20,25,30,35,45) 
val iteration = ] 
val listLambda = Array(0.001,0.005,0.01,0.03,0.09,0.3,0.6,1.0,1.8,3.0) 
val alphaList = Array(0.001,0.01,0.6,1.5,6,12,25,40,60) 

val parameterPath = "/user/root/alsimplicit/fagui/parameter" 

val minVisitTrain - Array(3,5,10,20) // train splitPoint 
val minVisitValidate - Array(2,5,10,20) // validate splitPoint 
val pointValues - Array(0,2,3,4,5) 

// 参考 代码 清单 8-15， 处 理 数 据 

// 建立 ALS 模 型 ， 以 RMSE 值 进行 评测 寻 优 ， 把 最 佳 参数 组 存储 到 HDFS 目 录 


getModelParameter(listRank, iteration, listLambda, train, validation, parame-terPath) 


参考 Spark ALS 算 法 模型 ， 最 优 模型 的 参数 也 会 有 多 组 ， 这 里 设置 多 组 参数 值 ， 分 别 得 到 各 组 参数 值 ， 最 优 模型 参数 如 表 8-17 所 示 。 


表 8-17 Spark ALS Implicit 算 法 知识 类 数据 模型 寻 优 参数 结果 


训练 | 验证 集 参数 | 值 参数 最 优 Alpha f& 
(3,5,10,20) | (1,5,10,20) |( 0,2,3,4,5) 0.001 
(3,5,10,20) | (3,5,10,20) |( 0,2,3.4,5) 0.001 
(4,5,10,20) | (4,5,10,20) |( 0,2,3,4,5) 0.001 


针对 基于 用 户 和 基于 项 目的 协同 过 滤 算 法 只 需要 设置 最 小 用 户 评价 URL 的 个 数 或 最 小 URL 被 用 户 评价 个 数 ， 即 可 得 到 最 优 模型 。 但 是 ， 在 对 实际 数据 处 理 的 过 程 中 发 现 ， 当 过 滤 数 据 比 较 少 时 ， 这 两 个 
算法 的 计算 量 太 大 (比如 50000 个 用 户 ， 那 么 如 果 使 用 基于 用 户 的 协同 过 滤 算 法 ， 则 需要 计算 的 数据 量 就 是 50000x 50000/2 的 数量 级 ) ， 不 适合 实际 应 用 ， 所 以 这 里 不 采用 这 两 种 算法 ， 而 仅 对 比 Spark 
ALS 和 Spark ALS Implicit 这 两 种 算法 。 


5. 结 果 分 析 
使 用 前 面 小 节 的 相关 内 容 ， 得 到 最 优 模型 ， 并 计算 各 个 最 优 模型 的 分 类 评价 指标 ， 如 表 8-18 所 示 。 


表 8-18 Spatk 各 组 算法 最 优 模型 评价 


Spark ALS(Rank—30, Iteration— 10, 0.36 
— EAE nhat NE 
过 小 二 1) 


| 40 | 22 | o% | 0 
Spark ALS(Rank —30, Iteration= 10, "T 
E anc ^ Yrs 
lambda-06, MAREA, SIES| — 20 — | 10 | oos ^ oi 
过 小 二 3) 
法 规 专题 
Spark ALS(Rank —40, Tteration=10, 013 
B quA ^ yy 
E Upload 0.08 
过 小 二 4) 
Spark ALS Implicit(Rank=35, Itera- 0.56 
c caule 0.34 
训练 集 过 滤 之 3 Sub IdUEl) 


数 据 F1 

Spark ALS Implicit(Rank—35, Itera- | 0.27 

tion— 10, lambda=0.3, Alpha=0.001, 0.17 
训练 集 过 滤 之 3 ， 验 证 集 过 滤 之 3) 

0.12 

0.10 

0.08 

法 规 专 题 

Spark ALS Implicit(Rank—30, Itera- ; 0.16 

tion— 10, lambda=0.3, Alpha=0.001, 0.10 
训练 集 过 小 二 4， 验 证 集 过 小 二 4) 

0.08 

0.06 

0.04 


根据 表 8-18 的 结果 ， 做 Spark ALS 和 Spark ALS Implicit 算 法 模型 的 对 比 结果 ， 其 F1 评 价 指标 画图 如 图 8-8、 图 8-9 所 示 。 


Spark ALS 算 法 各 组 参数 最 优 模型 Fl1 值 对 比 


图 8-8 Spark ALS 算 法 最 优 模型 F1 评 价 


Spark ALS Implicit 算 法 各 组 参数 最 优 模型 F 1 值 对 比 


图 8-9 Spark ALS Implicit 算 法 最 优 模型 F1 评 价 


从 图 8-8、 图 8-9 中 可 以 看 到 ， 对 于 单个 算法 来 说 ， 使 用 不 同 的 过 滤 方式 将 得 到 不 同 的 最 优 模 型 。 对 于 Spark ALS 和 Spark ALS Implicit 算 法 ， 如 果 设 置 的 过 滤 参数 较 小 〈 比 如 训练 集 3， 验 证 集 1) ， 那 么 
模型 效果 也 较 好 。 下 面 ， 使 用 Spark ALS 以 及 Spark ALS Implicit 模 型 的 最 优 模型 来 做 对 比 ， 如 图 8-10、 图 8-11 所 示 。 
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图 8-10 Spark ALS&Spark ALS Implicit F1 值 对 比 
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图 8-11 Spark ALS&Spark ALS Implicit Recall/Precision 值 对 比 


从 图 8-10、 图 8-11 中 可 以 很 明显 看 出 ， 综 合 来 说 ，Spark ALS Implicit 模 型 最 优 。 同时， 使 用 Spark ALS Implicit 算 法 模型 对 实际 的 数据 进行 推荐 ， 其 得 到 的 结果 也 是 可 以 解释 的 。 例 如 针对 咨询 类 数据 


进行 推荐 ， 其 结果 如 表 8-19 所 示 。 


表 8-19 咨询 类 推荐 结果 


用 p 访问 网 址 推荐 网 址 


23 


951071 


21777264 


"http://www. X X .com/ask/question 10383 


"http://www. X X .com/ask/question 10244513.html" www. X X .com/ask/question 10243783.html" 
"http://www. X X .com/ask/question 10244238.html" ! www. X X .com/ask/question 10244541 .html" 


www. X X .com/ask/question 10223080.html" 
www. X X .com/ask/question 10223488.html" 
www. X X .com/ask/question 10246475.html" 


"http://www. X X .com/ask/question 10383635.html" www. X X .com/ask/question 10162051.html" 
635.h 


35. html" 


参考 表 8-19 的 结果 ， 在 浏览 器 访问 上 述 网 址 ， 发 现 网 址 “http://www.x x.com/ask/question 10244513.html, http://www.x x.com/ask/question 10244238.html 和 网 
址 “http://www.x x.com/ask/question 10243783.html 等 的 相关 度 很 高 ， 这 说 明 推荐 的 结果 可 以 应 用 于 实际 。 


8.5 ”构建 法 律 服 务 大 数据 智能 推荐 系统 


8.5.1 动手 实践 : 构建 推荐 系统 JavaEE 


参考 4.6.4 节 、6.6 节 完善 基础 JavaEE Web 程 序 ， 接 着 添加 EasyUl 及 Jquery 相 关 的 JavasScript 支 持 ， 工 程 结构 如 图 8-12 所 示 。 


v ?2 law recommend1.1 > BÀ JavaScript Resources 
> "Bg Deployment Descriptor: law recommend1.1 > (E build 
> Æ JAX-WS Web Services v $2. WebContent 
v %8 Java Resources 
v 入 src 
v 出 com.tipdm 
> BB algorithm E META-INF 
> RB dao 全 pages 
> BB model > &£» create model 
> BB service > &» evaluate model 
> 中 servet ^ Æ optimize model 
> Rm util ^ £2 recommend 
v i resource (2. WEB-INF 
common.properties v & lib 
core-site.xml Bé] guava-11.0.2.jar 
hdfs-site.xml Bé] json-2.2.1 jar 
log4j.properties Bé] json-lib-2.4-jdk15.jar 
mapred-site.xml Bé] json-parser fatjar 
words.txt g| spark-assembly-1.6.0-hadoop2.6.0.jar 
yarn-site.xml X web.xml 
> 名 test JE] index.html 
> m Libraries 


图 8-12 法律 服务 大 数据 智能 推荐 工程 结构 


系统 首页 是 系统 介绍 ， 具 体 介 绍 内 容 参考 本 章 背 景 及 架构 部 分 ， 其 首页 效果 如 图 8-13 所 示 。 此 工程 同时 结合 了 法 律 网 服务 器 工程 和 大 数据 推荐 平台 ， 由 4 个 部 分 组 成 : 算法 建 模 、 模 型 评估 、 算 法 寻 
优 、 用 户 推荐 。 


系统 简介 
系统 由 两 部 分 构成 : 法 律 网 系统 和 大 数据 推荐 系统 。 法 律 网 系统 为 传统 网 站 系统 ， 提 供 相关 法 律 咨询 等 服务 ， 用 户 可 以 登录 查询 
相关 页 面 。 大 数据 推荐 系统 则 主要 是 根据 用 户 的 访问 日 志 使 用 推荐 引擎 来 为 用 户 推荐 感 兴趣 的 网 页 或 内 容 。 


两 个 系统 共同 工作 ， 用 户 访问 法 律 网 系统 ， 会 产生 访问 日 志 。 法 律 网 系统 会 定时 ( 比如 每 天 凌晨 1 点 ) 把 日 志 生 成 成 日 志文 件 ， 然 
"R tet 后 传输 到 大 数据 推荐 系统 。 推 荐 系统 根据 用 户 访问 日 志 使 用 推荐 引擎 来 对 日 志 数 据 进行 建 模 。 建 模 针对 不 同 参数 进行 ， 根 据 评价 算法 


i E) EvalLALSImplicit 找 出 最 优 模 型 。 接 着 ， 使 用 最 优 模型 来 对 各 个 用 户 进行 推荐 ， 然 后 把 推荐 数据 再 次 传输 给 法 律 网 系统 ， 这 样 就 可 以 在 用 户 下 次 登录 的 
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图 8-13 ”法 律 服务 大 数据 智能 推荐 系统 首页 


在 算法 建 模 模块 ， 一 共 提 供 了 4 个 算法 ， 分 别 是 基于 用 户 协同 过 滤 算 法 、 基 于 项 目 协同 过 滤 算 法 、ALs 协 同 过 滤 算法 、ALs Implicit 协 同 过 滤 算 法 。 以 ALS 算 法 建 模 为 例 ， 其 页 面 如 图 8-14 所 示 。 


功能 菜单 


EC 算法 建 模 
rie Baseltem 
a BaseUser 


-B ALSImplicit 
日 与 算法 评估 
-D Eval_Baseltem 
-A Eval BaseUser 
LD Eval_ALSImplicit 
[S] Eval ALS 
日 与 算法 寻 优 
| - 国 Optimize ALS 


-B Optimize_ALSImplicit 


-B Optimize Baseltem 
LE Optimize_BaseUser 


OSARE 


ALS 算 法 建 模 需要 用 户 提供 原 


建 模 过 程 中 ， 


始 数据 输入 路 径 
始 数据 处 理 所 需 数据 分 隔 符 ， 以 上 参数 设置 成 功 后 


输出 路 径 : 


矩阵 分 解 秩 ranks: 


正则 系数 lambda: 


循环 次 数 iteration: 


原始 数据 分 隔 符 : 


代码 清单 8-22 ”提交 Spark 任 务 到 YARN 集 群 核心 代码 


hdfs://serverl .tipdm.com:8020/user/root/law_faguizt/Spark_ALS/model/traindatafiltered_1 


hdfs://server1.tipdm.com:8020/user/root/law faguizt/Spark ALS/model/model 1 
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图 8-14 ALS 算 法 建 模 界面 


(注意 这 个 路 径 所 包含 的 数据 有 用 户 、 项 目 、 评 分 数据 ) 、 
， 单 击 “ 开 始 建 模 ”按钮 ， 即 可 开始 模型 构建 。 


建 模 成 功 后 模型 输出 路 径 、 算 法 参数 矩阵 分 解 秩 、 算 法 参数 正则 系数 、 算 法 参数 循环 次 数 、 原 


后 台 调 用 的 是 封装 的 Spark 算 法 ， 采 用 Spark On YARN 的 运行 方式 ， 其 核心 代码 如 代码 清单 8-22 所 示 。 


/** 

* 调用 Spark 加 入 监控 模块 
* @param args 

* Qreturn Application 
d 


ID 字符 串 


public static String runSpark (String[] 


StringBuf fer buf 
For (String arg : 
buff 


args) ( 


) 
log.inf 
try { 


System. setProperty ("SPARK YARN MODE", 
= new SparkConf(); 
tProper 


SparkConf 
SparkConf 


SparkConf 
.Set 


f = new String 


args) ( 
ter(); 


Bu 


SparkConf.set 


Client cl 
// client.run(); 


和 调用 Spark， * J 


Application 


d app 


try { 
appI 
} catch 


o("runSpark args:" + buf 


("spark.yarn.jar", ge 
("spark.yarn.scheduler.heartbeat. 
heartbeat.interval-ms")); 


{ 


e.printStackTrace(); 


// 返回 nul1 
return null; 


} 
// 开启 监控 线程 


updateAppStatus (appld 
返回 2% 作 为 提交 任务 成 功 的 百分比 


提交 任 


ini 


E 务 完成 ， 
fo (allAppS 


// 

log. 
new 
return appl 


.append (arg) .append (","); 


F.toString.() 


); 


"true") E 


ty("spark.yarn.jar")); 


“tCGS 


tatus. 


d.toSt 


) catch (Exception e) { 
e.printStackTrace(); 


return null; 


toS 


getProperty ("spark.yarn.schedul 
ClientArguments cArgs = new ClientArgumen 
ient = new Client(cArgs, cdhConf 


// 去 掉 此 种 调 月 


er. 


ts (args, SparkConf 


interval-ms", 


); 


d = client.submitApplication(); 
(Throwable e) 


i gura 


和 方式， 改 为 有 监控 的 调用 方 


tion.getCon! 


式 


— 


Figuratoin(), sparkConf); 


tring(), getProperty ("als.submitted.progress")); 


cring()); 


Thread (new MonitorThread (appI 
ring(); 


d, client)) 


.Start(); 


算法 评估 模块 也 对 应 有 4 个 模型 评估 页 面 ， 以 ALS 算 


法 模型 评估 为 例 ， 其 界面 如 图 8-15 所 示 。 


VIRES ER 


日 局 算法 建 模 

[8) Baseltem 

| B BaseUser 

| -B ALS 

- B ALSImplicit 
DOGRAMA 

: -E Eval Baseltem 

-E Eval BaseUser 


: -E Eval_ALSImplicit 


日 局 算 去 寻 优 
- 国 Optimize_ALS 


-E Optimize ALSImplicit 
: -E Optimize_Baseltem 
- [E] Optimize BaseUser 


md 
“ 国 用 广 推荐 


这 里 仍 使 用 封装 Spark 算 法 ， 使 用 Spark On YARN 的 方式 调用 。 算 法 评估 需要 提供 训练 数据 集 路 径 (用 于 过 滤 ) 、 测 试 数据 集 路 径 、 模 型 路 径 、K 值 列表 (模型 推荐 的 项 目 个 数 ) 
个 数 (用 于 过 滤 数 据 ) 、 结 果 路 径 等 ， 其 返回 结果 如 图 8-16 所 示 。 


N^ ALSImplicit 
日 己 算 法 评估 


H 


H 


E) Optimize ALSImplicit 
i P 


HE Optimize Baseltem 


i 
i 


[8 Optimize BaseUser 
日 与 用 户 推荐 


Ji || Eval ALS x 
训练 数据 : 
测试 数据 : 
模型 路 径 : 

k 值 列表 (): 

单 用 户 最 小 访问 ur|l 数 : 

结果 路 径 : 

原 数 据 分 隔 符 : 


法 选择 : 


i 首页 1 


Eval ALS x | 


als 算 法 评估 结果 1 


hdfs://server1.tipdm.com:8020/user/root/law. faguizt/Spark ALS/model/traindatafiltered 1 
hdfs://server1.tipdm.com:8020/user/root/law. faguizt/data/testset 
hdfs://server1.tipdm.com:8020/user/root/law. faguizt/Spark ALS/model/model 1 


10,20,30,40,50 


hdfs://server1.tipdm.com:8020/user/root/law. faguizt/Spark ALS/model/evaluation 1a 
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图 8-15 ALS 算 法 评估 界面 


als 算 法 评估 完成 ! 用 时 240 $^ 


K 值 召回 率 (%) 

10 39.57142857142858 
20 46.523809523809526 
30 51.095238095238095 
40 57.952380952380956 


62.238095238095234 


、 单 用 户 最 小 访问 url 


| BE (96) 
6.52788688138256 
3.837391987431265 
2.8096360303744436 
2.390023566378633 


2.0534171249018067 
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图 8-16 ALS 算 法 评估 结果 界面 


同 理 ， 在 算法 寻 优 模块 也 有 4 个 对 应 的 页 面 ， 以 ALS 算 法 为 例 ， 其 界面 如 图 8-17 所 示 。 


« 法律 服务 大 数据 推荐 系统 


首页 Optimize_ALS x 


WAZE: ^ hdfs://server1.tipdm.com:8020/user/root/law faguizt/data/trainset 


国 ALSImplicit 测试 数据 :  hdfs://server1.tipdm.com:8020/user/root/law_faguizt/data/validateset 
EH Ek 


+- [E] Eval Baseltem 


训练 数据 最 小 访问 次 数 :4 mp 测试 数据 最 小 访问 次 数 : | 4 


- 国 Eval_BaseUser 一 -一 
-B Eval ALSImplicit rank 列 表 : | 5,15,20,25,30,35 
L. Eval_ALS 
ECHO Pio 
“~ Optimize ALS 
-B Optimize_ALSImplicit 


循环 次 数 : 10 


lambda 列 表 : | 0.001,0.005,0.01,0.03,0.09,0.3,0.6,1.0,1.8,3.0 
alpha 列 表 : | 0.001,0.01,0.6,1.5,6,12,25,40,60 


参数 组 输出 路 径 : hdfs://server1:8020/user/root/law_faguizt/Spark_ALS_Implicit/model/parameter_1 


: B Optimize_BaseUser 


caria 过 滤 的 数据 存储 路 径 : | hdfs://server1:8020/user/root/law. faguizt/Spark ALS Implicit/model/traindatafiltered 1 
ECL nn— ———————— — 


过 滤 的 数据 存储 路 径 : | hdfs://server1:8020/user/root/law. faguizt/Spark. ALS Implicit/model/testdatafiltered 1 | 


图 8-17 Spark ALS 算 法 模型 寻 优 界面 


模型 寻 优 其 实 就 是 设置 多 组 建 模 参数 ， 每 组 参数 对 应 一 个 模型 ， 然 后 通过 模型 评估 选择 最 优 模型 的 过 程 。 算 法 参数 值 以 列表 形式 输入 ， 如 憩 阵 分解 秩 rank 列 表 、 正 则 化 系数 lambda 列 表 等 。 


最 后 一 个 模块 是 用 户 推荐 ， 使 用 提供 的 模型 来 对 用 户 进行 推荐 ， 其 界面 如 图 8-18 所 示 。 


功能 菜单 


DORAE 


: B BaseUser 


- E ALS 
: -[8) ALSImplicit 
DORAMA 


+ [E] Eval Baseltem 


国 Eval_BaseUser 


M [E Eval ALSImplicit : | hdfs://server1.tipdm.com:8020/tmp/law/als/data 


国 Eval_ALS 
日 与 算 去 寻 优 : | hdfs://server1.tipdm.com:8020/tmp/law/als/output/recommend 
[E] Optimize ALS 


1 imize ALSImplici 
jurada 


--[g) Optimize BaseUser 
日 如 用 户 推荐 


图 8-18 ”用户 推荐 界面 


在 用 户 推荐 界面 中 ， 用 户 需要 提供 使 用 的 推荐 算法 以 及 使 用 的 推荐 模型 路 径 ， 提 供用 户 的 ID 以 及 对 该 用 户 推荐 的 URL 数 目 ， 单 击 “ 生 成 推荐 ”按钮 即 可 对 用 户 进行 推荐 ， 其 推荐 结果 如 图 8-19 所 示 。 


-B ALSImplicit 


日 -与 算 法 证 佑 | "http://www.lawtime.cn/faguizt/shiyi23 p1.html" 1.7509928941726685 


| "http://www.lawtime.cn/faguizt/141.html" 1.684759497642517 


| “http://www.lawtime.cn/faguizt/shiyi43_pl.html" 1.6704381704330444 


"http://www.lawtime.cn/faguizt/reljieshi97.html" 1.633710265159607 


"http;//www.lawtime.cn/faguizt/312.html" 1.6321537494659424 


"http://www.lawtime.cn/faguizt/relfagui21 pl.html" 1.6082508563995361 


Ly E ME ARE TE “http://www.lawtime.cn/faguizt/shiyi15_p6.html" 1.5932296514511108 


日 -与 用 户 推荐 
E 用户 推荐 


图 8-19 ”模型 推荐 结果 界面 


1) 参考 上 述 描述 以 及 提供 的 参考 工程 ， 完 成 工程 中 提示 的 任务 (TODO 提 示 ) 。 


2) 完成 工程 相关 功能 后 ， 使 用 各 个 模型 进行 推荐 ， 验 证 各 个 算法 模型 推荐 效果 。 


8.5.2 FXR: Oozie 工 作 流 任务 


通过 前 面 章节 的 分 析 ， 读 者 应 该 对 法 律 服务 的 整体 流程 及 其 相关 实现 有 了 一 个 清晰 的 认识 ， 在 现实 情况 中 一 般 任 务 都 会 串联 起 来 运行 ， 这 里 使 用 Oozie 来 串联 所 有 的 任务 。 本 节 中 ， 首 先 会 使 用 Spark 来 
封装 数据 预 处 理 的 相关 算法 规则 ， 然 后 使 用 该 封装 的 算法 来 启动 Oozie 任 务 。 


参考 8.4.4 节 数据 预 处 理 规则 来 定义 相关 Spark 处 理 算 法 ， 其 代码 封装 如 代码 清单 8-23 所 示 。 


代码 清单 8-23 Spark 封装 数据 预 处 理 代 码 


package spark 

import org.apache.hadoop.conf.Configuration 
import org.apache.hadoop.fs.(Path, FileSystem] 
import org.apache.spark.rdd.RDD 

import org.apache.spark.(SparkConf, SparkContext] 
大 大 

* 数据 预 处 理 
* 输入 : 

* 1 .HDFS 数 据 路 径 〈(flume 路 径 ,"/flume data/*/\\*/\") 
* 2. 读 入 后 的 Partition 个 数 ，12 

* 3. 训练 集 分 割 点 : 0.8 

* 4. 验证 集 分 割 点 : 0.9 
* 
* 
* 
* 


处 理 得 到 : 
1 .用 户 和 URI 编 码 
2 .训练 数据 集 、 测 试 数 据 集 、 验 证 数据 集 


Iu 


object Prepare { 
def main (args: Array[String]) { 

if (args.length != 5){ 
println("Usage: spark.Prepare «input» «partitionSize» <trainPercent> <validatePercent> <output>") 
System.exit (-1) 


} 

// 参数 处 理 
val input = args (0) 

val partitions = args(1).toInt 

val trainPercent = args (2).toDouble 

val validatePercent = args (3).toDouble 

val output = args(4) 

// 删除 output 

FileSystem.get (new Configuration ()).delete (new Path (output) ,true) 
// 得 到 SparkContext 
val sc = new SparkContext (new SparkConf 
val data = sc.textFile (input,partitions) 


一 


) ) 


val parsedData = data.map(parse( )).filter( .size != 1 ).map(x => (x(4),x(8),x(0))) 
/** 
* 编码 
*/ 
val userSize = parsedData.map( . 1).distinct.count 
val urlSize = parsedData.map( . 2).distinct.count 
val userZipCode:RDD[(String,Long)] = parsedData.map( . 1).distinct.sortBy(x => x).zipWithIndex|() 
val urlZipCode:RDD[(String,Long)] = parsedData.map( . 2).distinct.sortBy(x => x).zipWithIndex|() 
val userZipCode = userZipCode.collect.toMap 
val urlZipCode = urlZipCode.collect.toMap 
val codeParedData = parsedData.map(x => 


(userZipCode (x. 1),urlZipCode (x. 2), 
try(x. 3.toLong]catch(case => new java.math.BigDecimal(x. 3).toPlain-String.toLong])) 
// 按照 时 间 惟 排序 
val sortCodeParsedData = codeParedData.sortBy(x => x. 3) 
// 分 割 训练 集 、 验 证 集 、 测 试 外 i 
val dataCount = sortCodeParsedData.count 


vtt 


val firstSplitPoint = dataCount * trainPercent toInt 
val secondSplitPoint - dataCount * validatePercent toInt 
val splitUrlPoints = sortCodeParsedData.zipWithIndex. 
filter(x => x. 2 == firstSplitPoint || x. 2 == secondSplitPoint).map(x => x. 1. 3).collect 
val train = sortCodeParsedData.filter( . 3 < splitUrlPoints(0)).map(x => (x. 1,x. 2) ) 
val validate = sortCodeParsedData.filter(x => x. 3 >= splitUrlPoints(0) && x. 3 < splitUrlPoints (1)).map(x => (x. 1,x. 2) ) 
val test = sortCodeParsedData.filter( . 3 >= splitUrlPoints(1)).map(x => (x. 1,x. 2) ) 
// 归 约 访问 次 数 到 评分 
val realTrain : RDD[(Long,Long,Double)]- train.map(x => (x,1)).reduce-ByKey((x,y) => X+Y) .map (X => (x. 1. 1,x. 1. 2,mapping(x. 2))) 
val validateTrain: RDD[(Long,Long,Double)] = validate.map(x => (x,l)).reduce-ByKey((x,y) => xt*y).map(x => (x. 1. 1,x. 1. 2,mapping(x. 2))) 
val testTrain : RDD[(Long,Long,Double)] = test.map(x => (x,1)).reduce-ByKey((x,y) => X+Y) .map (X => (x. 1. 1,x. 1. 2,mapping(x. 2))) 


// 保存 数据 


userZipCode.map(x => x. 1 +","+x. 2).saveAsTextFile (output-*" /userZipCode") 


urlZipCode.map(x => x. 1 +","+x. 2).saveAsTextFile (output-*"/urlZipCode") 
realTrain.map(x => x. 1 t+","+x. 2+","+x. 3).saveAsTextFile (output*"/real--Train") 
validateTrain.map(x => x. 1 +","+x. 2+","+x. 3).saveAsTextFile (output-*"/realValidate") 
testTrain.map(x => x. 1 +","+x. 2+","+x. 3).saveAsTextFile (output*"/real-Test") 

// 关闭 SparkContext 

sc.stop() 


} 


大 类 


* 数据 转换 ， 昔 换 双 引号 中 的 去 号 为 空格 


* (param str 


* Qreturn 
*/ 

def parse(str:String) :Array[String] ={ 
var flag false 


for(i <- 0 until str.size) { 
if('"'.equals (str (i))){ 
if (flag) flag = false 
else flag = true } 
if (flag && ','.equals (str (i)) 
S 
S 


) 
trr = strr.updated(i,' ') } 
trr.split(",",-1) 


} 
k*k 
* 根据 规则 归 约 访问 次 数 到 评分 
* (param times 
* Qreturn 
*/ 
def mapping(times :Int) = 
if(1 <= times && times <5) times.toDouble 
else if( times » 100) 10.0 
else (times - 5) * 5.0 / 95 +5 


封装 好 上 述 代码 后 ， 使 用 相关 打包 工具 把 编译 后 的 代码 输出 成 Jar 包 待 用 。 接 着 ， 定 义 Oozie 相 关 配 置 文件 ， 如 代码 清单 8-24、 代 码 清单 8-25 所 示 。 


代码 清单 8-24 Spark Prepare Oozie 工 作 流 job.properties 


oozie.wf.application.path-$ (nameNode)/user/$(user.name)/workflow/spark prepare 
nameNode-hdfs: //nameservicel 

resourceManager-node41.tipdm.com:8032 

master-yarn-cluster 

queueName-default 
oozie.use.system.libpath-true 

input-/flume data/*/*/ 

jarPath-$ (nameNode] /user/root/workflow/spark prepare/spark algorithm.jar 
sparkOpts---executor-memory 3500m --num-executors 8 --driver-memory 3g 
partitions-12 

trainPercent-0.8 

validatePercent-0.9 

output-/tmp/oozie/spark prepare 


代码 清单 8-25 Spark Prepare Oozie 工 作 流 workflow.xml 


«workflow-app xmlns-'uri:oozie:workflow:0.5' name-'Spark Prepare'» 
«start to-'spark-node' /» 
«action name-'spark-node'» 
«spark xmlns-"uri:oozie:spark-action:0.1"» 
«job-tracker»$(resourceManager]«c/job-tracker» 
«name-node»$ (nameNode ) «/name-node» 


«prepare» 

«delete path="$ {output}"/> 
</prepare> 
<master>$ {master}</master> 


<name>Spark prepare Job</name> 
<class>spark.Prepare</class> 
«jar»$(jarPath]«/jar» 
«spark-opts»$([sparkOpts]«/spark-opts» 
«arg»$[input]«/arg» 
«arg»$[(partitions]«/arg» 
«arg»$[(trainPercent]«/arg» 
«arg»$(validatePercent]«/arg» 
«arg»$ {output }</arg> 
</spark> 
«ok to-"end" /> 
«error to-"fail" /> 
«/action» 
Xkill name-"fail"» 
«message»Workflow failed, error 
message [S (wf:errorMessage (wf:lastErrorNode ())]] 
«/message» 
«/kill» 
«end name-'end' /» 
«/workflow-app» 


最 后 ， 启 动 该 Oozie 定 时 任务 ， 其 启动 命令 如 图 8-20 所 示 。 启 动 后 ， 会 返回 一 个 任务 ID。 


[root8ünode41 spark prepare]# oozie job -oozie http://node4l.tipdm.com:11000/oozie 


job: 0000001-161224000455642-00zie-oozi-W 


图 8-20  Oozie4€ X Spark Ptepate 任 务 
同时 ， 该 任务 也 可 以 在 YARN 任 务 监 控 中 看 到 ， 如 图 8-21 所 示 。 


application 1482509090022 0015 root Spark prepare Job root.root Sun Dec Sun Dec 25 FINISHED SUCCEEDED 
25 23:33:24 
23:29:15 — 40800 20106 
+0800 
2016 


application 1482509090022 0014 root  oozie:launcher:T-spark:W-Spark  MAPREDUCE root.root Sun Dec Sun Dec 25 FINISHED SUCCEEDED 
Prepare:A-spark- 25 e Se ata, 
node :ID-0000001- 23:28:33 +0800 2016 
161224000455642-0o0zie-oozi-W +0800 
2016 


图 8-21 Oozie Spark Prepare 任 务 显 示 在 YARN 监 控 中 


从 图 8-21 中 看 到 ，Oozie 任 务 流程 的 任务 首先 启动 一 个 Hadoop MapReduce 任 务 ， 然 后 由 此 任务 再 启动 一 个 Spark 任 务 。 在 Ooize 监 控 中 查看 其 任务 状态 如 图 8-22 所 示 。 


Job Info | Job Definition || Job Configuration || Job Log || Job DAG 


zu] 
[e 


; |0000001-161224000455642-00zie-oo0zi-W 
: | Spark Prepare 
App Path: hdfs://nameservicel/user/root/workflow/spark prepare 
Run: |0 
Status: | SUCCEEDE D 
User: | root 
Group: 
Parent Coord: 
Create Time: | Sun, 25 Dec 2016 15:28:20 GMT 
Start Time: | Sun, 25 Dec 2016 15:28:20 GMT. 
Last Modified: | Sun, 25 Dec 2016 15:33:28 GMT 
End Time: | Sun, 25 Dec 2016 15:33:28 GMT 


Actions 
Action Id Mame Type Status Transition startrime EndTime 
1 0000001-161224000455542-o0zie-oozi-V:start: :start: START: OK spark-node Sun, 25 Dec 2016 15:28:20... Sun, 25 Dec 2016 15:28:20... 


2 0000001-161224000455642-o0z2ie-o0zi-WV(gispark.. spark-node spark OK end Sun, 25 Dec 2016 152821... Sun, 25 Dec 2016 15:3328... 
3 0000001-161224000455642-00zie-oozi- gend end :END: OK sun, 25 Dec2016 15:3328... Sun, 25 Dec 2016 15:33:28... 


[8-22 Spark Prepate 任 务 显示 在 Oozie 监 控 中 


1) 参考 上 述 ， 把 Spark 模 型 寻 优 代码 和 预测 代码 进行 封装 。 
2) 把 1) 中 封装 的 代码 实现 成 Oozie 流 程 单个 任务 。 


3) 把 Oozie 封 装 的 Spark Prepare、ModelOptimize、ModelPredict 工 作 流 整合 成 一 个 工作 流 ， 并 添加 根据 数据 有 效 性 触发 任务 的 特性 。 


8.6 本章 小 结 


本 章 给 出 了 一 个 法 律 服务 行业 的 大 数据 智能 推荐 系统 案例 ， 从 案例 背景 、 实 现 目标 、 系 统 整 体 架 构 及 流程 等 部 分 分 析 该 系统 。 同 时 ， 针 对 系统 实现 的 各 个 过 程 ， 包 括 从 数据 传输 、 数 据 探 索 、 数 据 预 处 
理 到 最 后 的 建 模 、 模 型 寻 优 、 模 型 评价 等 ， 都 提供 了 分 析 的 相关 代码 ， 方 便 读 者 实际 操作 ， 让 读者 实 实 在 在 感受 项 目 中 的 每 一 个 环节 。 最 后 给 出 了 基于 法 律 服务 的 大 数据 智能 推荐 系统 的 实现 以 及 Oozie 工 作 
流 的 封装 ， 当 然 ， 这 是 一 个 简化 的 实现 版 本 。 相 信 通 过 本 章 的 学 习 ， 读 者 可 以 更 加 熟悉 大 数据 相关 的 各 种 技术 ， 能 够 更 加 灵活 地 应 用 相关 技术 来 解决 相应 的 问题 。 


